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Python 机 器 学 习 
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Лтъчвв, KXT! 

计算 机 是 由 程序 驱动 的 ， 人 工 智能 不 过 是 一 些 特殊 的 算法 。 只 要 你 
有 一 些 程序 设计 语言 的 基础 ， 跟 随 本 书 ， 你 也 能 进入 人 工 智能 的 世 
界 ， 成 为 一 名 人 工 智能 应 用 的 开发 者 。 
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内 容 简 介 

机 器 学 习 正 在 迅速 改变 我 们 的 世界 。 我 们 几乎 每 天 都 会 读 到 机 器 学 习 如 何 改 变 日 党 的 生活 。 如 果 你 
在 淘宝 或 者 束 东 这 样 的 电子 商务 网 站 购买 商品 ， 或 者 在 爱 奇 艺 或 是 腾讯 视频 这 样 的 视频 网 站 观看 节目 ， 
甚至 只 是 进行 一 次 百度 搜索 ， 就 已 经 触 磁 到 了 机 器 学 习 的 应 用 。 使 用 这 些 服务 的 用 户 会 产生 数据 ， 这 些 
数据 会 被 收集 ,在 进行 预 处 理 之 后 用 来 训练 模型 ， 而 模型 会 通过 这 些 数据 来 提供 更 好 的 用 户 体验 。 此 外 ， 
目前 还 有 很 多 使 用 机 器 学 习 技 术 的 产品 或 服务 即将 在 我 们 的 生活 当中 普及 ， 如 能 够 解放 双手 的 无 人 营 驶 
汽车 、 聪 明 伶俐 的 智能 家 居 产 品 、 善 解 人 意 的 导购 机 器 人 等 。 可 以 说 要 想 深入 机 器 学 习 的 应 用 开发 当中 ， 
现在 就 是 一 个 非常 理想 的 时 机 。 

本 书 内 容 涵盖 了 有 监督 学 习 、 无 监督 学 习 、 模 型 优化 、 自 然 语言 处 理 等 机 器 学 习 领 域 所 必须 掌握 的 
知识 ， 从 内 容 结构 上 非常 注重 知识 的 实用 性 和 可 操作 性 。 全 书 采 用 由 浅 入 深 、 循 序 渐进 的 讲授 方式 ， 完 
全 遵循 和 尊重 初学 者 对 机 器 学 习 知 识 的 认 知 规律 。 本 书 适 合 有 一 定 程序 设计 语言 和 算法 基础 的 读者 学 习 
使 用 。 
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计算 机 是 由 程序 驱动 的 ， 人 工 智 能 (АП 不 过 是 一 些 特 殊 的 算法 。 只 要 你 有 一 些 程 
序 设计 语言 的 基础 ， 跟 随 本 书 ， 你 也 能 进入 人 工 智 能 的 世界 ， 成 为 一 个 AI 应 用 的 开发 者 。 


АТЕВЕ, KT 


仿佛 就 在 一 夜 之 间 ， 人 工 智能 火 了 ， 一 跃 成 为 IT 业内 最 受 关 注 的 热点 话题 。 如 果 读 
者 关注 互联 网 圈子 的 话 ， 应 该 会 听 说 在 2017 年 12 月 乌镇 举办 的 第 四 届 互 联网 大 会 上 ， 
一 众 互 联网 大 咖 张 口 闭口 都 在 谈 人 工 智 能 ， 使 得 AI 成 了 宫 无 疑问 的 最 大 风口 。 

例如 ， 网 易 公 司 的 СЕО 丁 椅 就 表示 ， 人 工 智能 会 成 为 每 一 个 行业 的 标 配 。 他 认为 ， 
任何 一 个 行业 都 可 以 用 到 人 工 智 能 ， 并 且 建 议 每 个 企业 的 领导 者 都 不 要 忽略 人 工 智 能 外 
自己 所 在 领域 的 影响 。 

苹果 公司 的 CEO 蒂 姆 。 库 克也 谈 到 人 工 智 能 可 以 让 世界 变 得 更 美好 。 同 时 ， 他 表示 
并 不 担心 机 器 会 像 人 一 样 思 考 ， 但 强调 必须 为 技术 注入 人 性 ， 赋 予 技术 应 有 的 价值 。 

把 “Allin AI” 作 为 口号 的 百度 , H СЕО 李彦宏 更 是 极为 推 尝 人 工 智 能 。 他 的 观点 是 ， 
人 工 智 能 不 可 能 超越 人 类 的 能 力 ， 但 是 随 着 它 的 能 力 逐 步 逼 近 人 类 ， 就 会 开始 一 个 行业 
一 个 行业 地 去 颠覆 了 。 

还 有 一 位 不 能 不 提 的 人 ， 就 是 阿里 巴巴 集团 董事 局 主席 马云 。 在 他 的 演讲 中 提 到 ， 
与 其 担心 人 工 智 能 会 带 走 很 多 就 业 机 会 ， 不 如 拥抱 技术 ， 解 决 新 的 问题 。 人 工 智能 只 会 
让 人 的 工作 更 有 价值 ， 更 有 尊严 。 

当然 ， 小 米 的 СЕО 雷军 更 是 不 态 在 大 会 上 直接 做 了 个 硬 广告 。 他 告诉 与 会 嘉宾 ， 小 
米 正 在 拥抱 人 工 智 能 ， 在 2018 年 小 米 手机 将 深度 利用 AI 技术 。 
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此 外 ， 大 名 易 易 的 斯 坦 福 大 学 计算 机 系 教授 、Coursera 创始 人 吴 恩 达 ， 更 是 人 工 智 
能 的 坚定 拥护 者 。 他 直言 未 来 政府 和 企业 会 在 人 工 智能 领域 扮演 看 越 来 越 重 要 的 角色 ， 
监管 得 力 才能 使 AI 发 展 得 更 好 ， 企 业 领 导 者 更 应 该 将 AI 技术 融入 企业 文化 中 ， 创 造 一 
个 AI 文 持 下 的 未 来 。 

国内 的 顶级 学 者 也 高 度 重 视 AI 的 发 展 ， 中 国 工程 院 院 士 倪 光 南 老 先生 强调 ，AI 是 
未 来 非常 重 要 的 一 个 发 展 方 同 ， 会 产生 什么 我 们 很 难 预料 ， 但 一 定 会 产生 重大 的 影响 ; 
同时 他 指出 ， 未 来 人 和 机 器 应 该 和 谐 相处 ， 我 们 可 以 把 重复 性 的 劳动 交 给 和 人工 智 能 ， 人 
类 去 做 更 多 有 创造 力 的 工作 。 

诸如 此 类 ， 我 们 这 里 不 一 一 列举 了 ， 但 从 上 述 这 些 大 咖 们 的 言论 之 中 ， 人 工 智能 的 
火爆 程度 ， 已 然 是 可 见 一 斑 了 。 


置身 事 外 ， 还 是 投身 其 中 


既然 各 路 大 咖 都 如 此 看 好 人 工 智 能 的 前 景 ， 那 么 我 们 应 该 怎样 面 对 这 一 波 滔 漳 呢 ? 

前 不 入， 我们 的 朋友 圈 几 乎 被 同一 种 情绪 刷 屏 ， 那 就 是 对 人 工 智 能 即将 取代 人 类 的 
强烈 担忧 。 各 路 目 媒体 不 惜 笔墨 地 泻 染 人 工 智能 将 逐步 春 食 人 类 的 就 业 机 会 ， 并 且 最 终 
取代 人 类 统治 世界 ， 以 此 来 博得 大 众 的 眼球 ， 吸 引 粉 丝 的 关注 。 

对 于 此 ， 笔 者 的 观点 是 : 这 简直 是 “ 咸 吃 萝卜 淡 操心 ”! 这 种 通过 伟大 其 词 误 导 大 
众 换取 关注 的 方法 是 不 可 取 的 。 纵 观 人 类 历史 ， 发 生 过 三 次 大 的 工业 单 命 ， 而 在 这 三 次 
革命 当中 ， 确 实 发 生 过 短暂 的 对 于 人 类 就 业 的 冲击 。 但 是 人 类 自 起 源 以 来 ， 依 靠 强 大 的 
适应 能 力 一 直 存 活 到 今天 ， 并 没有 被 任何 机 器 或 者 别 的 物种 所 取代 。 相 反 地 ， 我 们 的 生 
活 质量 还 在 不 断 提 高 ， 享 受 看 新 兴 技 术 给 我 们 带 来 的 高 效 与 便捷 。 

不 过 ， 尽 管 我 们 不 必 担 心 新 的 技术 取代 人 类 ， 但 还 是 要 面 对 一 个 现实 ， 那 就 是 每 次 
大 的 技术 革命 带 来 的 阶层 转换 与 固化 。 比 如 距离 我 们 最 近 的 这 一 次 信息 技术 莲 勃 发 展 ， 
制造 了 一 大 批 顶级 定 坚 ,如 微软 的 比尔 。 冀 次 、 亚 马 还 的 贝 案 斯 ， 国 内 的 李 户 宏 、 马 云 、 
п). еН. Г. 

如 果 说 ， 在 上 一 次 互联 网 带 来 巨大 机 遇 的 时 候 ， 虽 们 年 龄 还 小 一 一 有 可 能 还 在 上 中 
学 甚至 小 学 ， 没 能 抓 住 这 一 波浪 潮 ， 那 么 这 一 波 AI 带 来 的 机 会 就 真 的 是 “ 生 着 其 时 ”,， 
估计 本 书 的 读者 朋友 年 龄 段 会 相对 集中 在 “80 后 ”“90 后 ”这 一 代 ， 正 是 青春 好 年 华 ， 
体力 和 脑力 都 处 在 一 个 非常 出 色 的 阶段 ， 可 以 说 是 完美 地 “遭遇 ”了 这 一 千载难逢 的 好 
时 机 。 
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笔者 一 直 认 为 ， 评 价 一 门 技术 是 否 值得 我 们 投入 时 间 和 精力 去 认真 钻研 ， 一 个 重要 
的 标准 就 是 它 是 否 能 及 时 地 让 我 们 的 生活 质量 得 到 巨大 的 提升 。 更 具体 一 点 说 ， 或 许 它 
可 以 让 我 们 “ 宣 可 敌国 ”， 或 许 让 我 们 “ 权 倾 朝野 ”， 亦 或 许 让 我 们 “转角 遇 到 爱 ”， 
忆 之 是 要 解决 具体 的 问题 。 当 然 有 些 读者 朋友 会 觉得 笔者 有 点 过 于 “实用 主义 ”， 但 人 
Евн, Жо. 


前 途 光 明 ， 马 上 开始 


目 从 2017 年 下 半年 开始 ， 笔 者 强烈 感觉 到 ， 各 大 互联 网 公司 在 首 狂 地 抢夺 人 工 智 能 
领域 的 人 才 ， 随 手打 开 微 信 朋 友 圈 都 能 看 到 众多 猎头 好 友 在 发 布 人 工 智能 工程 师 、 机 器 
学 习 工 程 师 、 算 法 工程 师 等 职位 ， 而 且 一 挂 就 是 很 入 ， 说 明 这 些 职位 相当 难 招 。 这 也 导 
致 这 些 职位 的 薪酬 是 水 涨 船 高 ， 随 便 打开 一 个 招聘 网 站 ， 搜 索 一 下 相关 的 岗位 关键 词 ， 
你 都 会 发 现 类 似 的 岗位 招聘 人 数 很 多 ， 薪 酬 也 都 很 令 人 呈 舌 。 

例如 ， 我 们 打开 猎 聘 ， 在 职位 搜索 中 输入 “机 器 学 习 ” 这 个 关键 词 ， 会 得 到 10 000+ 
个 结果 ， 我 们 随便 挑 一 些 来 看 一 下 ， 如 图 0-1 тт. 


0-1 “机 器 学 习 ” 搜 索 结 果 
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从 图 0-1 中 我 们 可 以 看 到 ， 和 机 器 学 习 相关 的 职位 ， 即 便 没 有 经 验 的 要 求 ， 年 薪 也 
达到 了 24 万 ~48 万 , 而 一 个 2 年 以 上 工作 经 验 的 算法 工程 师 , 薪酬 更 是 达到 了 36 万 ~72 Л, 
绝对 称 得 上 是 “ 钱 途 光明 ”。 

看 到 这 里 ， 读 者 朋友 可 能 已 经 跃跃欲试 , 希望 能 够 尽快 投 喘 到 人 工 智 能 的 领域 当中 ， 
但 是 如 何 迈 出 第 一 步 呢 ? 

要 知道 , 人 工 智 能 是 一 个 非常 宽广 的 领域 , 它 涵盖 图 像 识 别 、 目 然 语言 处 理 、 语 音 识别 、 
数据 挖掘 等 ， 究 竟 哪 个 方 四 的 前 景 是 最 好 的 呢 ? 

对 于 这 个 问题 ， 笔 者 是 这 样 考 虑 的 : 现在 并 不 需要 过 分 纠结 未 来 深入 研究 的 领域 ， 
现 阶段 最 应 该 做 的 是 开始 打 基础 ， 进 行 入 门 知 识 的 学 习 。 在 上 述 知 干 个 领域 中 ， 不 论 应 
用 的 场景 有 多 么 大 的 区 别 ， 其 背后 的 原理 无 外 乎 是 使 用 机 器 学 习 算 法 对 数据 进行 学 习 ， 
并 且 得 到 分 类 、 回 归 、 聚 类 的 结果 ， 因 此 笔者 强烈 建议 读者 朋友 从 “机 器 学 习 ” 看 手 ， 
然后 同 “ 深 度 学 习 ” 进 发 ， 再 结合 实际 工作 需求 选择 一 个 具体 的 应 用 方 癌 进行 深入 的 
研究 。 


本 书 内 容 及 体系 结构 


为 了 让 读者 的 学 习 过 程 相对 比较 轻松 愉快 ， 本 书写 作 力求 语言 生动 ， 并 且 以 实例 来 
进行 讲解 。 

本 书 第 1 章 先 用 小 C 追求 女神 的 故事 站 述 了 什么 是 机 器 学 习 ， 然 后 用 蝙 蚁 公司 的 业 
务 单元 展示 了 机 器 学 习 的 应 用 场景 ， 力 图 让 读者 对 机 器 学 习 产 生 兴 趣 ， 并 且 参 考 本 章 给 
出 的 建议 开始 学 习 。 

本 章 后 面 的 内 容 会 阐述 机 器 学 习 的 基本 概念 ， 包 括 有 监督 学 习 和 无 监督 学 习 、 分 类 
与 回归 的 基本 概念 、 模 型 的 泛 化 ， 以 及 什么 是 过 拟 合 ， 什 么 是 欠 拟 合 。 

本 书 第 2 章 将 会 详细 地 指导 读者 配置 机 器 学 习 的 环境 ， 这 一 章 中 读者 将 能 够 掌握 
Python 的 下 载 和 安装 ， 以 及 相关 工具 的 安装 和 使 用 方法 。 

本 书 第 3 ж ~ 第 8 章 将 详细 介绍 机 器 学 习 中 常见 的 一 些 算法 ， 在 这 些 章节 中 读者 将 
会 掌握 常见 算法 的 原理 和 使 用 方法 。 

在 第 9 章 和 第 10 章 中 ， 读 者 将 可 以 学 习 到 如 何 对 数据 进行 预 处 理 和 聚 类 ， 以 便 让 复 
杂 数 据 集 中 的 关键 点 可 以 使 人 一 目 了 然 。 

从 第 11 章 和 第 12 章 ， 读 者 将 可 以 学 习 如 何 让 算法 能 够 有 更 民 好 的 表现 ， 以 及 如 何 
找到 模型 的 最 优 参数 ， 还 有 怎样 通过 建立 流水 线 让 模型 协同 工作 以 便 达 到 最 好 的 效果 。 
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本 书 第 14 章 介 绍 了 如 何 编写 一 个 简单 的 爬虫 来 进行 数据 的 获取 ， 并 且 介 绍 了 如 何 使 
用 潜在 狄 利克 雷 分 布 进 行文 本 数据 的 话题 提取 。 

本 书 的 最 后 一 一 第 15 章 ， 回 读者 简单 介绍 了 目前 “人 工 智 能 ”领域 的 人 才 需 求 现状 
和 未 来 的 学 习 方 问 ， 以 及 如 何 使 用 常见 的 竞赛 平台 磨炼 目 己 的 技能 。 

注意 限于 篇 幅 ， 本 书 不 会 详细 介绍 Python 语言 的 基本 语法 和 其 在 机 器 学 习 之 外 的 
应 用 。 感 兴趣 的 读者 可 以 搜索 Python 的 基础 教程 来 进行 学 习 。 但 是 本 书 的 学 习 并 不 要 求 
读者 对 Python 达到 精通 的 水 平 。 


本 书 特色 


1. 内 容 实 用 实在 、 详 略 得 当 ， 讲 授 符合 初学 者 的 认 知 规律 

本 书 内 容 涵 新 了 有 监督 学 习 、 无 监督 学 习 、 模 型 优化 、 目 然 语言 处 理 等 机 器 学 习 领 
域 所 必须 掌握 的 知识 ， 从 内 容 结 构 上 非常 注重 知识 的 实用 性 和 可 操作 性 。 必 须 掌 握 的 细 
节 处 绝 不 音 惜 笔 汉 、 手 把 手 细致 到 每 一 次 的 鼠标 点 击 ; 仪 需 要 大 致 了 解 处 绝 不 铺张 浪费 
纸张 、 整 体 结构 的 描述 提纲 者 领 。 这 样 的 安排 注重 了 对 初学 阶段 必 备 知识 的 深入 了 解 ， 
大 致 了 解 的 知识 也 能 够 有 所 认识 ， 这 种 由 浅 入 深 、 循 序 渐进 的 讲授 完全 是 遵循 和 尊重 了 
初学 者 对 机 器 学 习 知 识 的 认 知 规律 。 

2. 行文 幽默 该 谐 ， 以 实例 引导 人 全程， 特别 适合 初学 者 阅读 

本 书 介绍 的 基本 理论 知识 、 用 于 分 类 的 机 器 学 习 算 法 、 用 于 回归 的 机 器 学 习 算法 、 
数据 预 处 理 、 数 据 表 达 与 特征 工程 等 ， 都 是 使 用 非常 贴近 生活 场景 的 实例 来 引导 的 ， 这 
样 就 避免 了 知识 讲述 过 于 抽象 ， 非 常 易 于 理解 。 同 时 ， 作 者 以 幽默 该 谐 ， 贴 近 时 代 的 语 
言 对 这 些 知识 进行 生动 、 通 俗 的 一 一 讲解 ， 犹 如 一 位 你 的 老 朋友 ， 和 帮助 你 缩短 入 门 机 器 
学 习 的 时 间 。 纵 观 全 书 ， 作 者 将 大 学 生 小 C 追求 女神 以 及 帮助 他 的 朋友 处 理 日 常 问题 同 
机 器 学 习 的 理论 与 操作 进行 对 比 介 绍 ， 这 就 使 得 整个 学 习 过 程 变 得 人 简单、 生动 起 来 。 

3. 配套 的 人 才 培 养 与 引入 计划 ， 帮 助 读者 将 学 习 成 果 转 化 为 真正 的 生产 力 

在 笔者 过 去 的 工作 当中 ， 累 积 了 数量 可 观 的 各 大 互联 网 公司 招聘 通道 资源 ， 以 及 计 
多 猪头 资源 ， 可 以 帮助 学 有 所 长 的 读者 快速 进入 一 个 实际 操作 的 场景 中 进一步 提高 目 己 
的 实 操 能 力 。 除 此 之 外 ， 笔 者 和 国内 大 部 分 相关 的 产业 发 展 部 门 有 看 密切 的 联系 ， 对 于 
有 志 于 在 人 工 智 能 领域 创业 的 创业 者 来 说 ， 也 能 够 帮助 其 对 接 政 策 资源 ， 帮 助 大 家 在 创 
业 过 程 中 得 到 有 关 部 门 的 支持 ， 从 而 使 得 创业 之 路 变 得 不 那么 坎坷 。 


本 书 读者 对 象 


想 要 进入 机 器 学 习 领 域 的 初学 者 

企业 中 想 要 向 机 器 学 习 的 工程 是、 数据 科学 家 转型 的 非 开 发 岗 人 员 
机 器 学 习 、 人 工 智 能 方向 的 培训 班 学 员 

各 计算 机 科学 、 非 计算 机 科学 专业 的 大 中 专 院 校 学 生 

想 要 在 人 工 智 能 领域 创业 的 创业 者 

需要 使 用 机 器 学 习 知 识 解决 日 常 问题 的 人 员 

其 他 对 机 器 学 习 、 人 工 智 能 有 兴趣 爱好 的 各 位 自学 者 
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最 后 ， 还 要 感谢 各 位 编辑 老师 的 辛勤 劳动 ， 使 本 书 可 以 顺利 出 版 。 如 果 读 者 朋友 在 
学 习 过 程 中 有 任何 问题 ， 或 者 单纯 地 想 聊 聊 天 ， 欢 迎 添加 作者 本 人 微 信 : dynhyper， 谢 
WKZ! 
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近年 来 ， 全 球 新 一 代 信 息 技 术 创 新 浪潮 和 迭起 。 作 为 全 球 信 息 领 域 产业 竞争 的 新 一 轮 
焦点 ， 人 工 智能 的 发 展 迎 来 了 第 三 次 浪潮 ， 它 正在 推动 工业 发 展 进 入 新 的 阶段 ， 掀 起 第 
四 次 工业 革命 的 序幕 ,而 作为 人 工 智 能 的 重要 组 成 部 分 ,机 器 学 习 也 成 了 炙手可热 的 概念 。 
本 章 将 向 读者 介绍 机 器 学 习 的 基础 知识 ， 为 后 面 的 学 习 打 好 基础 。 
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本 章 主要 涉及 的 知识 点 有 : 


э 


vy vy vv 


什么 是 机 器 学 习 

机 器 学 习 的 主要 应 用 场景 

机 器 学 习 应 该 如 何 入 门 

有 监督 学 习 和 无 监督 学 习 的 概念 

分 类 、 回 归 、 泛 化 、 过 拟 合 与 欠 拟 合 等 概念 
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11 什么 是 机 器 学 习 一 一 从 一 个 小 故事 开始 


要 搞 清楚 什么 是 机 器 学 习 ， 我 们 可 以 从 一 个 小 故事 开始 。 


小 C 是 一 个 即将 毕业 的 大 学 生 、 单 身 的 小 伙 子 ,他 一 直 在 暗地里 喜欢 隔壁 班 的 女 
神 ， 可 是 又 苦于 没有 机 会 接近 她 ， 于 是 在 很 长 一 段 时 间 里 ， 小 C 只 能 保持 这 种 暗恋 的 
状态 。 

突然 有 一 天 ， 在 一 个 很 偶然 的 机 会 下 ， 小 C 得 到 了 女神 的 微 信号 ， 并 且 添 加 了 她 。 
然后 开始 密切 关注 她 的 朋友 圈 ， 观 察 她 的 一 举 一 动 。 

不 久 小 C 就 有 了 重大 发 现 , 女神 在 朋友 圈 经 常 发 三 种 类 型 的 内 容 : 书籍 、 电 影 和 旅游 。 
这 可 是 个 了 不 起 的 发 现 ， 对 于 小 C 来 说 ,， 千 载 难 轿 的 机 会 来 了 。 

接 下 来 ， 小 C 把 女神 喜欢 的 书 名 和 特征 (Features ) 保存 在 电脑 上 ， 做 成 一 个 数据 集 
( Dataset ) ， 然 后 根据 这 个 数据 集 用 “算法 ( Algorithm ) ”建立 了 一 个 “模型 ( Model ) , 
并 且 通 过 这 个 模型 预测 出 了 女神 会 喜欢 哪 一 本 新 书 ， 之 后 小 C 买 下 了 模型 预测 出 来 的 书 ， 
作为 礼物 送 给 了 女神 。 

收 到 新 书 的 女神 很 开心 ， 也 对 小 C 产生 了 好 感 。 

后 来 小 C 又 用 同样 的 方法 预测 出 了 女神 喜欢 的 电影 ， 并 买 票 请 女神 去 看 。 不 出 所 料 ， 
每 次 女神 的 观 影 体验 都 棒 极 了 ， 两 个 人 的 关系 也 越 来 越 近 。 

再 后 来 ,小 C 又 预测 了 女神 会 喜欢 的 旅游 地 点 , 订 好 机 票 和 酒店 , 对 女神 发 出 了 邀请 。 
当然 ， 女 神 不 会 拒绝 小 C 了 ， 因 为 这 次 旅游 的 目的 地 可 是 她 一 直 想 去 的 地 方 呢 ! 

整个 旅途 愉快 极 了 ， 小 C 总 能 像 手术 刀 一 样 精准 地 切 到 女神 最 感 兴趣 的 话题 上 。 女 
神 沉 得 太 不 可 思议 了 , 她 问 小 C: “为 什么 你 会 这 么 了 解 我 呢 ?” 小 C 按 撕 住 内 心 的 喜悦 ， 
故 作 镇 定 地 说 道 : “这 是 机 器 学 习 的 力量 。” 

“什么 是 机 器 学 习 啊 ? ”女神 不 解 。 
是 时 候 让 小 C 展现 出 扎实 的 学 术 底 蕴 了 ， 他 抬头 45。 仰望 星空 ,深沉 地 说 道 : 
“机 器 学 习 ， 最 早 是 由 一 位 人 工 智 能 领域 的 先驱 ，Arthur Samuel ( 见 图 1-1), Æ 

1959 年 提出 来 的 。 本 意 指 的 是 一 种 让 计算 机 在 不 经 过 明显 编程 的 情况 下 ， 对 数据 进行 学 
习 ， 并 且 做 出 预测 的 方法 ， 属 于 计算 机 科学 领域 的 一 个 子 集 。 公 认 的 世界 上 第 一 个 自我 
学 习 项 目 ， 就 是 Samuel 跳棋 游戏 。 而 我 也 是 通过 机 器 学 习 的 方法 ， 通 过 你 在 社交 媒体 的 
数据 预测 出 你 的 喜好 的 。” 


1-1 Arthur Samuel 和 他 的 跳棋 游戏 


坚 无 基 念 地 ， 女 神 对 小 C 产生 了 深 深 的 染 拜 感 ， 并 且 芳 心 瞳 许 。 从 此 以 后 ， 两 个 人 
走 在 了 一 起 ， 并 过 上 了 和 幸福 的 生活 。 

对 于 一 部 童话 来 说 , 故事 到 这 里 就 可 以 结束 了 。 可 是 对 于 一 本 机 器 学 习 的 入 门 书 来 说 ， 
我 们 才刚 刚 开 始 。 

有 了 女 朋 友 的 小 C 也 要 背负 起 目 己 的 责任 了 ， 他 需要 一 份 工作 ， 才 能 为 两 个 人 的 生 


活 提 供 经 济 来 源 。 很 幸运 的 是 ， 他 通过 校园 招聘 进入 了 国内 最 大 的 互联 网 公司 
公司 ， 成 为 一 名 机 器 学 习 工 程 师 ， 从 此 开始 了 他 的 职业 生涯 。 


Зр а 


1.2 机 器 学 习 的 一 些 应 用 场景 一 一 蝙 量 公司 的 业务 蛙 元 


小 C 入 职 的 蜗 蝠 公司 ， 作 为 国内 互联 网 行业 的 龙头 企业 ， 其 业务 履 兰 面 十 分 广泛 ， 
包括 电子 商务 、 社 交 网 络 、 互 联网 金融 以 及 新 闻 资 讯 等 。 每 一 个 方 癌 在 内 部 都 被 称 为 一 
个 BU 业务 单元 ) 。 每 个 BU 相对 独立 运作 ， 有 目 己 完善 的 体系 。 但 机 器 学 习 技 术 ， 在 
每 个 BU 都 有 非常 深入 的 应 用 。 下 面 我 们 来 大 致 了 解 一 下 。 

1. 电子 商务 中 的 智能 推荐 

蝙蝠 公司 的 电子 商务 BU 是 国内 最 大 的 在 线 零售 平台 ， 其 用 户 接近 5 亿 ， 每 天 在 线 
商品 数 超过 8 亿 ， 平 均 每 分 钟 会 售 出 4.8 万 件 商品 。 正 因此 ， 电 子 商务 BU 拥有 海量 的 用 
户 和 商品 数据 。 当 然 ， 为 了 让 平台 的 成 交 总 额 (Gross merchandise Volume, GMV) 不 断 
提高 ， 电 子 商 务 BU 必须 精确 地 为 用 户 提供 商品 优惠 信息 。 和 小 C 预测 女神 的 喜好 类 似 ， 
电子 商务 BU 要 通过 机 器 学 习 ， 来 对 用 户 的 行为 进行 预测 。 但 在 如 此 海量 的 数据 下 ， 模 
型 要 比 小 C 的 模型 复杂 很 多 。 

比如 某 个 男性 用 户 的 浏览 记录 和 购买 记录 中 有 大 量 的 数码 产品 ， 而 且 系 统 识别 出 该 
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用 户 访问 平台 时 使 用 的 设备 是 iPhone 7， 则 算法 很 有 可 能 会 给 该 用 户 推荐 iPhone X 的 购 
买 链接 。 ра areenan npin 品 ， 那 么 机 器 就 会 把 最 
新 于 的 Hermès 或 者 Chanel 产品 推荐 给 她 。 

2. 社交 网 络 中 的 效果 广告 

蜗 蝠 公司 旗下 的 社交 网 络 平 台 目 前 有 超过 9 亿 的 月 活跃 用 户 〈《Monthly Active 
Users, МАО) ， 其 主要 熏 利 模式 是 通过 在 社交 网 络 中 投放 效果 广告 ， 从 而 为 商家 提供 精 
准 营 销 的 服务 。 在 这 种 盘 利 模式 下 ， 该 BU 需要 保证 广告 的 投放 尽 可 能 精准 地 到 达 目 标 
受众 ， 并 转化 为 销售 。 因 此 需要 机 器 学 习 算 法 来 预测 用 户 可 能 感 兴趣 的 广告 内 容 ， 并 且 
将 符合 要 求 的 内 容 展示 给 用 户 。 

比如 用 户 经 和 营 转 发 或 点 赞 和 汽车 有 关 的 信息 ， 那 么 系统 就 会 把 某 品 牌 新 车 上 市 的 广 
告 展 示 给 用 户 ， 而 如 果 用 户 经 常 转发 或 点 赞 的 是 和 时 尚 相关 的 信息 ， 那 么 系统 推荐 的 广 
告 就 会 是 新 一 季 的 服装 搭配 潮流 等 。 

3. 互联 网 金融 中 的 风 控 系统 

蝙 蝙 公司 旗下 另外 一 个 业务 单元 一 一 互联 网 金融 事业 部 ， 主 要 是 为 用 户 提 供 小 额 贷 
aiai 目前 该 BU 拥有 45 亿 用 户 ， 具 有 每 秒 处 理 近 9 万 笔 文 付 的 能 力 。 而 

它 的 资产 损失 比率 仅 有 0.001%， 这 是 一 个 非常 恐怖 的 数字 ! 要 知道 全 球 最 老牌 的 在 线 
A дервент сетер 
系统 作为 支撑 ， 而 风 控 系统 背后 ， 就 是 机 器 学 习 算 法 的 应 用 。 

例如 ， 在 这 个 场景 中 ， 风 控 系 统 要 能 够 收集 已 知 的 用 户 欺 诈 行为 ， 并 对 欺诈 者 的 行 
为 数据 进行 分 析 ， 再 建立 模型 ,在 类 似 的 欺诈 行为 再 度 发 生 之 前 就 把 它们 扼杀 在 摇篮 里 ， 
从 而 降低 平台 的 资产 损失 比率 。 

4. 新 闻 资 讯 中 的 内 容 审查 

蝙蝠 公司 旗下 的 新 闻 资 讯 业 务 单 元 的 表现 也 同样 让 人 眼前 一 之 。 这 个 BU 的 产品 主 
要 是 新 闻 客 户 端 APP， 据 称 其 激活 用 户 数 已 经 超过 6 亿 ， 而 平均 每 个 用 户 使 用 时 长 达到 
了 76 分 钟 。 而 令 人 噶 舌 的 是 ， 这 个 业务 单元 下 据说 没有 编辑 人 员 ， 所 有 的 内 容 处 理 都 是 
通过 机 器 学 习 算 法 目 动 完成 的 。 

比如 该 产品 的 “精准 辟谣 ”功能 ， 就 是 主要 依赖 机 器 学 习 的 算法 ， 对 内 容 进 行 识 别 。 
如 果 判 断 为 是 虚假 信息 , 则 会 提交 给 审核 团队 , 审核 属实 之 后 , 虚假 信息 就 会 被 系统 屏蔽 ， 
不 会 给 用 户 进行 推送 。 

当然 ， 蜗 蝠 公司 的 业务 单元 远 远 不 止 上 述 这 几 个 ， 同 时 机 器 学 习 在 这 些 业 务 单元 中 
的 应 用 也 远 远 不 止 上 述 这 几 个 方面 。 限 于 篇 幅 ， 本 书 就 不 再 一 一 罗列 了 。 
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5. 机 器 学 习 在 蝙蝠 公司 之 外 的 应 用 

蝙蝠 公司 代表 的 是 互联 网 行业 , 然而 在 互联 网 行业 之 外 ,机 器 学 习 也 被 广泛 的 应 用 。 
例如 在 医疗 行业 中 所 使 用 的 专家 系统 ， 典 型 的 案例 就 是 诞生 于 20 世纪 70 FARR MYCIN 
系统 , 该 系统 由 斯 坦 福 大 学 研制 , 它 可 以 用 患者 的 病史 、 症 状 和 化 验 结 果 等 作为 原始 数据 ， 
运用 医疗 专家 的 知识 进行 逆 问 推理 ， 找 出 导致 感染 的 细菌 。 寿 是 多 种 细 戎 ， 则 用 0 到 1 
的 数字 给 出 每 种 细菌 的 可 能 性 ， 并 在 上 述 基础 上 给 出 针对 这 些 可 能 的 细菌 的 药方 。 

此 外 ， 还 有 诸如 智能 物流 、 智 能 家 居 、 无 人 驾驶 等 领域 。 可 以 说 机 器 学 习 ， 己 经 非 
党 深切 地 融入 了 我 们 的 生活 与 工作 当中 。 

6. 一 些 炫 酷 的 “ 黑 科 技 ” 

除了 上 述 我 们 提 到 的 已 经 广泛 应 用 的 领域 ,还 有 一 些 代 表 着 未 来 发 展 趋势 的 案例 ， 
Яш: 2016 年 ，Google 旗下 的 AI 程序 AlphaGo 首次 战胜 了 人 类 围棋 世界 冠军 。2017 年 ， 
埃 隆 。 马 斯 克 创 办 的 OpenAI 公司 开发 的 人 工 智 能 程序 在 电子 竞技 游戏 DOTA 中 战胜 了 
人 类 世界 冠军 Dendi。 除 此 之 外 ， 还 有 很 多 诸如 AI 写 新 闻 稿 、 画 插画 、 写 诗词 等 消息 充 
斥 着 各 大 新 闻 网 站 的 首页 ， 仿 佛 用 不 了 多 久 ，AI 就 会 在 各 个 方面 全 面 奉 代 人 类 ， 进 而 统 
治世 界 了 。 

本 书 并 不 想 争 论 AI 究竟 会 让 人 类 生活 得 更 美好 , 还 是 会 成 为 地 球 的 主宰 者 奴役 我 们 。 
在 这 里 只 想 和 大 家 一 起 探究 一 下 这 些 案例 背后 的 原理 。 不 管 是 АрнаСо 还 是 OpenAI， 其 
背后 的 原理 都 是 机 器 学 习 中 的 深度 学 习 ， 它 们 的 崛起 在 全 球 范 围 内 掀起 了 一 阵 人 工 智 能 
和 深度 学 习 的 热潮 。 

实际 上 ， 人 工 智能 这 个 概念 并 不 是 最 近 几 年 才 出 现 的 。 早 在 20 世纪 60 ЕК, АТ 
智能 就 被 提出 , 并 且 分 为 诸多 学 派 。 其 中 联结 学 派 就 是 神经 网 络 , 或 者 说 深度 学 习 的 代表 。 
但 受 限 于 当时 的 计算 能 力 ， 人 工 智能 的 发 展 也 出 现 了 停 清 。 

而 随 看 时 代 的 发 展 , 现在 的 心 片 计 算 能 力 越 来 越 强 , 同时 用 户 的 数据 量 也 越 来 越 大， 
为 人 工 智 能 的 进一步 发 展 提供 了 必要 的 先决 条 件 ， 而 机 器 学 习 、 深 度 学 习 、 神 经 网 络 等 
概念 也 随 之 火爆 起 来 。 同 时 在 人 才 市 场 上 ， 机 器 学 习 工 程 师 、 算 法 工程 师 、 数 据 分 析 师 
等 职位 也 呈现 出 了 供不应求 的 场面 ， 因 此 有 更 多 的 人 开始 投身 到 机 器 学 习 的 研究 当中 。 


13 ”机 器 学 习 应 该 如 何 入 门 一 一 世上 无 难事 


相信 在 看 了 上 面 的 内 容 之 后 ， 一 些 读者 朋友 也 已 经 动心 ， 想 要 加 入 机 器 学 习 的 领域 
当中 了 。 保 不 齐 能 像 故 事 中 的 小 С 一 样 ， 既 能 抱 得 美人 归 ， 又 能 找到 一 份 心 仪 的 工作 。 
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但 另外 ， 又 会 担心 目 己基 础 薄弱 ， 不 知道 从 何 入 手 。 

不 用 担心 ! 只 要 你 肯 多 动脑 ， 勤 动手 ， 相 信 很 快 就 可 以 入 门 的 。 下 面 是 我 们 给 大 家 
的 一 点 学 习 方面 的 建议 。 

1. 从 一 种 编程 语言 开始 

如 果 你 之 前 完全 没有 编程 的 基础 ， 那 么 我 们 建议 先 从 一 门 编程 语言 开始 。 目 前 市 面 
上 常用 的 编程 语言 上 有 很 多 种 ， 如 C++、Java、Python、R 等 。 那 么 该 选择 哪 一 种 呢 ? 不 必 
纠结 ,编程 语言 并 没有 绝对 的 “好 ”和 “不 好 ”的 区 别 ， 只 是 它们 各 自 有 各 自 的 特点 而 已 。 
而 且 如 果 你 掌握 了 其 中 的 一 种 ， 再 学 习 其 他 的 编程 语言 时 ， 上 和 手 会 快 得 多 。 

本 书 使 用 的 语言 是 Python， 主 要 原因 是 : 在 数据 科学 领域 ，Python 已 经 成 为 了 一 门 
通用 的 编程 语言 。 它 既 有 通用 编程 语言 的 强大 能 力 ， 同 时 还 具有 诸如 MATLAB 或 者 R 
之 类 针对 某 个 专门 领域 语言 的 易 用 性 。 同 时 丰富 和 强大 的 库 ， 让 Python 在 数据 挖 据 、 数 
据 可 视 化 、 图 像 处理 、 目 然 语 言 处 理 等 领域 都 有 非常 不 俗 的 表现 。 

Python 还 被 称 为 “胶水 语言 ”， 因 为 它 能 够 把 用 其 他 语言 编写 的 各 种 模块 轻松 连接 
在 一 起 。 而 它 简洁 清晰 的 语法 和 强制 缩 进 的 特点 ， 都 让 Python 对 初学 者 非常 友好 。 此 外 ， 
它 还 是 完全 开源 的 ， 用 户 完全 不 需要 文 付 任 何 费用 。 

由 于 Python 语言 的 简洁 性 、 易 读 性 以 及 可 扩展 性 ， 在 国外 用 Python 做 科学 计算 的 
研究 机 构 日 益 增 多 ， 一 些 知 名 大 学 已 经 采用 Python 来 教授 程序 设计 课程 。 众 多 开源 的 科 
学 计算 软件 包 都 提供 了 Python 的 调用 接口 ， 如 著名 的 计算 机 视觉 库 OpenCV、 三 维 可 视 
WE VTK、 医 学 图 像 处 理 库 ITK。Google 的 深度 学 习 框 架 TensorFlow 兼容 得 最 好 的 语 
言 之 一 ， 也 是 Python。 

2017 +7 Н 20 Н, IEEE 发 布 2017 年 编程 语言 排行 榜 : Python 高 居 首 位 。 

还 有 一 个 重要 的 原因 ， 对 于 用 户 来 说 ，Python 的 学 习 成 本 是 非常 低 的 。 哪 怕 是 完全 
零 基 础 的 读者 ， 在 一 个 月 左右 的 努力 学 习 之 后 ， 也 可 以 大 致 学 握 它 的 基本 语法 和 主要 的 
功能 模块 。 

因此 我 们 推荐 读者 使 用 Python 进行 机 器 学 习 方 面 的 研究 与 开发 ， 在 后 面 的 章节 我 们 
会 带 大 家 配置 基于 Python 的 开发 环境 。 

2. 熟悉 机 器 学 习 中 的 基本 概念 

在 对 编程 语言 有 了 基本 的 掌握 之 后 , 读者 朋友 需要 熟悉 机 器 学 习 中 的 一 些 基本 概念 ， 
比如 什么 是 “有 监督 学 习 ”， 什 么 是 “无 监督 学 习 ”， 它 们 之 间 的 区 别 是 什么 ， 在 应 用 
方面 有 什么 不 同 。 另 外 ， 对 机 器 学 习 的 “分 类 ”和 “回归 ”有 基本 认 知 ， 清 楚 在 什么 场 
景 下 使 用 分 类 算法 ， 在 什么 场景 下 使 用 回归 算法 。 最 后 理解 模型 的 “ 泛 化 ”， 明 日 在 什 


------ 
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么 情况 下 模型 会 出 现 “ 过 拟 合 ”的 现象 ， 在 什么 情况 下 会 出 现 “ 欠 拟 合 ”的 现象 。 

3. 了 解 机 器 学 习 中 最 常见 的 算法 

在 了 解 了 基本 概念 之 后 , 读者 朋友 就 可 以 开始 了 解 机 器 学 习 中 最 第 用 的 一 些 算法 了 。 
Ш K 最 近邻 算法 、 线 性 模型 、 朴 素 贝 叶 斯 、 决 策 树 、 随 机 和 森林、SVMs、 神 经 网 络 等 。 

在 这 个 过 程 中 , 读者 需要 了 解 每 种 算法 的 基本 原理 和 用 途 , 它们 的 特性 分 别 是 什么 ， 
在 不 同 的 数据 集中 表现 如 何 ， 如 何 使 用 它们 建 模 ， 模 型 的 参数 如 何 调整 等 。 

Д. 掌握 对 数据 进行 处 理 的 技巧 

读者 朋友 可 根据 前 述 内 容 ， 对 小 数据 集 进行 建 模 并 且 做 出 一 些 预测 。 但 是 在 真实 世 
界 中 ， 数 据 往 往 比 我 们 拿 来 实验 的 小 数据 集 复杂 很 多 倍 。 它 们 的 特征 变量 会 大 很 多 ， 也 
就 是 说 数据 的 维度 会 高 很 多 ， 同 时 可 能 完全 没有 训练 数据 集 供 你 使 用 ， 这 时 候 读者 就 需 
要 掌握 一 些 数据 处 理 的 技能 ， 比 如 如 何 对 数据 进行 降 维 ， 或 者 聚 类 ， 从 而 让 数据 更 容易 
被 理解 ， 并 从 中 找到 关键 点 ， 为 建 模 砚 定 基础 。 

5. 学 会 让 模型 更 好 地 工作 

学 会 用 算法 建 模 和 对 数据 进行 处 理 之 后 , 读者 朋友 要 做 的 是 如 何 让 模型 更 好 地 工作 。 
例如 ， 怎 样 做 可 以 让 算法 的 效率 更 局 ， 怎 样 找 到 最 适合 的 模型 ， 模 型 最 优 的 参数 是 什么 ， 
以 及 如 何 打造 一 个 流水 线 ， 让 几 个 模型 在 其 中 共同 协作 ， 以 解决 你 的 问题 等 。 

6. 动手 ， 一 定 要 动手 操作 

学 习 一 门 知识 最 好 的 办 法 就 是 使 用 它 ， 因 此 建议 读者 朋友 一 定 要 目 己 动手 实 操 。 不 
要 嫌 厅 烦 ， 尽 可 能 把 本 书 中 的 代码 全 部 目 己 敲 一 下 这 样 才能 对 内 容 有 更 加 深刻 的 理解 。 
如 果 觉 得 不 够 过 首 ， 还 可 以 到 知名 的 Kaggle 大 赛 平 台 ， 或 者 “天 池 ” 算 法 大 赛 平台 上 ， 
使 用 那些 来 目 真实 世界 的 数据 来 磨炼 目 己 的 技能 。 

当然 ， 还 有 个 更 好 的 方法 ， 那 就 是 去 企业 中 寻找 一 个 机 器 学 习 工 程 师 或 是 算法 工程 
师 的 职位 ， 在 工作 中 和 学习， 效果 是 最 好 的 了 。 


14 ”有 监督 学 习 与 无 监督 学 习 


在 机 器 学 习 领 域 ， 有 监督 学 习 和 无 监督 学 习 是 两 种 常用 的 方法 。 有 监督 学 习 是 通过 
现 有 训练 数据 集 进行 建 模 ， 再 用 模型 对 新 的 数据 样本 进行 分 类 或 者 回归 分 析 的 机 器 学 习 
方法 。 在 监督 式 学 习 中 ， 训 练 数据 集 一 般 包 含 样本 特征 变量 及 分 类 标签 ， 机 器 使 用 不 同 
的 算法 通过 这 些 数据 推断 出 分 类 的 方法 ， 并 用 于 新 的 样本 中 。 目 前 有 监督 学 习 算法 已 经 
比较 成 熟 ， 并 且 在 很 多 领域 都 有 很 好 的 表现 。 
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而 无 监督 和 学习， 或 者 说 非 监督 式 和 学习 ， 则 是 在 没有 训练 数据 集 的 情况 下 ， 对 没有 标 
签 的 数据 进行 分 析 并 建立 合适 的 模型 , 以 便 给 出 问题 解决 方案 的 方法 。 在 无 监督 学 习 当 中 ， 
常见 的 两 种 任务 类 型 是 数据 转换 和 聚 类 分 析 。 

其 中 数据 转换 的 目的 是 , 把 本 来 非常 复杂 的 数据 集 通过 非 监 督 式 学 习 算法 进行 转换 ， 
使 其 变 得 更 容易 理解 。 常 见 的 数据 转换 方法 之 一 便 是 数据 降 维 ， 即 通过 对 特征 变量 较 多 
的 数据 集 进行 分 析 ， 将 无 关 紧 要 的 特征 变量 去 除 ， 保 留 天 键 特征 变量 (例如 ， 把 数据 集 
降 至 二 维 ， 方 便 进 行 数据 可 视 化 处 理 ) 。 

而 聚 类 算法 则 是 通过 把 样本 划 归 到 不 同 分 组 的 算法 ， 每 个 分 组 中 的 元 素 都 具有 比较 
接近 的 特征 。 目 前 ， 聚 类 算法 主要 应 用 在 统计 数据 分 析 、 图 像 分 析 、 计 算 机 视觉 等 领域 。 


15 ”机 器 学 习 中 的 分 类 与 回归 


分 类 和 回归 是 有 监督 学 习 中 两 个 最 常见 的 方法 。 对 于 分 类 来 说 ， 机 器 学 习 的 目标 是 
对 样本 的 类 标签 进行 预测 ， 判 断 样本 属于 哪 一 个 分 类 ， 结 果 是 离散 的 数值 。 而 对 于 回归 
分 析 来 说 ， 其 目标 是 要 预测 一 个 连续 的 数值 或 者 是 范围 。 

这 样 讲 可 能 会 有 一 点 抽象 ， 我 们 还 是 用 小 С 的 例子 来 理解 一 下 这 两 个 概念 。 

比如 , 小 C 在 使 用 算法 模型 预测 女神 的 电影 喜好 时 , 他 可 以 将 电影 分 为 “女神 喜欢 的 ” 
和 “女神 不 喜欢 的 ”两 种 类 型 这 就 是 二 元 分 类 ,如果 他 要 把 电影 分 为 “女神 特别 豆 欢 的 ” 
“女神 有 点 喜欢 的 ” “女神 不 怎么 喜欢 的 ”以 及 “女神 讨厌 的 ”四 种 类 型 ， 那 么 这 就 属 
于 多 元 分 类 。 

但 如 果 小 C 要 使 用 算法 模型 预测 女神 对 某 部 电影 的 评分 ， 例 如 ， 女 神 会 给 “速度 与 
激情 8” 打 多 少 分 ， 从 0 到 100， 分 数 越 高 说 明 女 神 越 喜欢 ， 最 终 模 型 预测 女神 会 给 这 部 
电影 打 88 分 ， 这 个 过 程 就 称 为 回归 。 小 C 需要 将 女神 给 其 他 电影 的 评分 和 相对 应 的 电 
影 特征 作为 训练 数据 集 ， 通 过 建立 回归 模型 ， 来 给 “速度 与 激情 8” 打 分。 


1.6 ”模型 的 泛 化 、 过 拟 合 与 炙 拟 合 


在 有 监督 学 习 中 ,我 们 会 在 训练 数据 集 上 建立 一 个 模型 ,之 后 会 把 这 个 模型 用 于 新 的 ， 
之 前 从 未 见 过 的 数据 中 ， 这 个 过 程 称 为 模型 的 泛 化 〈generalization) 。 当 然 我 们 希望 模 
型 对 于 新 数据 的 预测 能 够 尽 可 能 准确 ， 这 样 才能 说 模型 泛 化 的 准确 度 比 较 高 。 

那么 我 们 用 什么 样 的 标准 来 判断 一 个 模型 的 泛 化 是 比较 好 的 ， 还 是 比较 差 的 呢 ? 
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我 们 可 以 使 用 测试 数据 集 对 模型 的 表现 进行 评估 。 如 果 你 在 训练 数据 集 上 使 用 了 一 
个 非常 复杂 的 模型 ， 以 至 于 这 个 模型 在 拟 合 训练 数据 集 时 表现 非常 好 ， 但 是 在 测试 数据 
集 的 表现 非常 差 ， 说 明 模 型 出 现 了 过 拟 合 (overfiting〉 的 问题 。 

相反 ， 如 果 模 型 过 于 简单 ， 连 训练 数据 集 的 特点 都 不 能 完全 考虑 到 的 话 ， 那 么 这 样 
的 模型 在 训练 数据 集 和 测试 数据 集 的 得 分 都 会 非常 差 ， 这 个 时 候 我 们 说 模型 出 现 了 欠 拟 
A (underfitting〉 的 问题 。 

而 只 有 模型 在 训练 数据 集 和 测试 数据 集 得 分 都 比较 高 的 情况 下 ， 我 们 才 会 认为 模型 
对 数据 拟 合 的 程度 刚刚 好 ， 同 时 泛 化 的 表现 也 会 更 出 色 。 


1.7 ОМА 


现在 我 们 来 对 本 章 的 内 容 进 行 一 下 总 结 。 在 本 章 开始 的 部 分 ， 我 们 通过 一 个 小 故事 
了 解 了 机 器 学 习 的 基本 概念 ， 之 后 又 对 机 器 学 习 的 部 分 应 用 场景 进行 了 初步 的 学 习 。 

之 所 以 说 “部 分 ”应 用 场景 ， 是 因为 机 器 学 习 的 应 用 范围 实在 太 广 ， 我 们 很 难 穷 举 ， 
相信 读者 朋友 日 后 还 会 接触 到 更 多 元 化 的 案例 。 

当 读者 朋友 对 机 器 学 习 产 生 兴 趣 之 后 ， 还 可 以 在 本 章 中 找到 对 于 机 器 学 习 入 门 的 步 
又 和 一 些 建议 。 当 然 ， 每 个 人 有 目 己 独到 的 学 习 方法 ， 本 章 所 列 的 方法 仅仅 供 读者 朋友 
参考 ， 你 也 完全 可 以 根据 自身 的 情况 安排 自己 的 学 习 计 划 。 

同时 ， 为 了 让 读者 朋友 能 够 更 加 顺利 地 学 习 后 面 的 章节 ， 本 章 还 初步 介绍 了 一 些 机 
器 学 习 领 域 的 术语 ， 如 监督 学 习 、 无 监督 学 习 、 过 拟 合 和 父 拟 合 等 。 但 请 读者 朋友 注意 ， 
这 部 分 内 容 也 并 非 是 将 所 有 的 术语 进行 罗列 ， 如 半 监 督学 习 和 强化 学 习 的 概念 ， 本 章 还 
没有 涉及 。 相 信 日 后 随 厦 读者 朋友 学 习 进 程 的 加 深 ， 还 会 解锁 更 多 新 的 知识 点 。 

在 第 2 章 ， 本 书 将 用 手把手 的 方式 ， 和 读者 朋友 一 起 搭建 机 器 学 习 的 开发 环境 ， 相 
信 乐 于 动手 的 你 会 找到 很 多 乐趣 。 
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Жо 基于 Python 语言 的 环境 配置 


在 看 完 第 1 章 的 内 容 后 ， 相 信 有 一 部 分 读者 朋友 可 能 已 经 忍 不 住 想 要 动手 操作 一 下 
了 。 工 欲 善 其 事 ， 必 先 利 其 器 。 本 草 将 帮助 读者 朋友 把 实验 环境 配置 好 。 

事实 上 ， 有 一 些 第 三 方 机 构 发 行 了 一 些 已 经 集成 好 必要 的 库 的 Python 开发 工具 ， 如 
Anaconda、Enthought Canopy、Python (х,у) 等 ， 它 们 的 主要 功能 是 用 于 进行 科学 计算 
和 大 规模 数据 处 理 。 如 果 你 不 想 自己 去 动手 逐步 配置 环境 ， 那么 直接 下 载 这 些 工 具 也 是 
不 错 的 选择 。 但 是 对 于 新 手 而 言 ， 我 强烈 建议 下 载 Python 的 原始 安装 文件 ， 并 尝试 自己 
安装 这 些 库 ,这样 可 以 充分 锻炼 自己 的 动手 能 力 。 

本 章 主 要 涉及 的 知识 点 有 : 

э Python 的 下 载 和 安装 

3 Jupyter Notebook 的 安装 及 使 用 方法 

3 Numpy、Scipy、matplotlib、pandas、scikit-learn 等 库 的 安装 和 使 用 方法 


2.1 Python 的 下 载 和 安装 


首先 ， 我 们 需要 通过 Python 官方 网 站 http://www.python.org 下 载 Python 安装 包 ， 目 
前 最 新 的 版 本 是 3.6.2。 在 官网 首页 的 导航 条 上 找到 “Downloads” 按 钮 ， 鼠 标 悬 停 在 上 
面 时 会 出 现 一 个 下 拉 菜 单 ， 如 图 2-1 тя. 


2-1 Python 官网 下 载 入 口 


在 下 拉 菜 单 中 ， 根 据 自 己 的 操作 系统 选择 对 应 的 Python 版 本 ， 本 书 将 以 Windows 为 
例 进行 讲解 。 
苹果 的 МАС OS В + Г Python 2.7.X， 需 要 另行 安装 Python 3.6.2。 但 是 由 于 系 
统 运行 依赖 于 自 市 的 Python 2.7.X， 因 此 请 务必 不 要 删除 系统 自 市 的 版 本 。 


单 击 图 2-1 中 所 示 的 Windows 按钮 之 后 ， 将 进入 下 载 页 面 ， 在 这 里 选择 和 目 己 系统 
匹配 的 安装 文件 。 为 了 方便 起 见 ， 我 们 选择 executable installer 〈 可 执行 的 安装 程序 ) ， 
如 果 你 的 操作 系统 是 32 位 的 ， 请 选择 Windows x86 executable installer; 如 果 操 作 系 统 是 
64 位 的 ， 请 选择 Windows x86-64 executable installer， 如 图 2-2 所 示 。 


2-2 Python 3.6.2 不 同 版 本 下 载 链接 
下 载 完成 后 ， 双 击 安 装 文件 ， 在 打开 的 软件 安装 界面 中 选择 Install Now 即 可 进行 默 
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认 安 装 ， 而 选择 Customize installation 可 以 对 安装 目录 和 功能 进行 目 定 义 。 记 得 勾 选 Ааа 
Python 3.6 to PATH 选项 ， 以 便 把 安装 路 径 添 加 到 PATH 环境 变量 中 ， 这 样 就 可 以 在 系统 
各 种 环境 中 直接 运行 Python 了 。 


2.2 Jupyter Notebook 的 安装 与 使 用 方法 


在 安装 好 Python 后 ， 使 用 其 目 市 的 IDLE 编辑 器 就 已 经 可 以 完成 代码 编写 的 功能 了 。 
但 是 目 禹 的 编辑 器 功能 比较 简单 ， 所 以 可 以 考虑 安装 一 球 更 强大 的 编辑 嚣 。 本 书 推荐 使 
用 Jupyter Notebook 作为 开发 工具 。 

Jupyter Notebook 是 一 于 开源 的 Web 应 用 ， 用 户 可 以 使 用 它 编写 代码 、 公 式 、 解 释 
性 文本 和 绘图 ， 并 且 可 以 把 创建 好 的 文档 进行 分 享 。 目 前 ，Jupyter Notebook 已 经 广泛 应 
用 于 数据 处 理 、 数 学 模拟 、 统 计 建 模 、 机 器 学 习 等 重要 领域 。 它 文 持 四 十 余 种 编程 语言 ， 
包括 在 数据 科学 领域 非常 流行 的 Python、R、Julia 以 及 Scala。 用 户 还 可 以 通过 E-mail, 
Dropbox, Github 等 方式 分 享 自己 的 作品 。Jupyter Notebook 还 有 一 个 强悍 之 处 在 于 ， 它 
可 以 实时 运行 代码 并 将 运行 结果 显示 在 代码 下 方 ， 给 开发 者 提供 了 极 大 的 便捷 性 。 

时 下 最 热门 的 Kaggle 算法 大 赛 中 的 文档 几乎 都 是 Jupyter 格式 ， 本 书 也 使 用 了 
Jupyter Notebook 进行 创作 。 

下 面 我 们 来 讲解 一 下 Jupyter Notebook 的 安装 和 基本 操作 。 


2.2.1 ”使 用 pip 进 行 Jupyter Notebook 的 下 载 和 安装 


以 管理 员 身份 运行 Windows 系统 自 带 的 命令 提示 符 ， 或 者 是 МАС OS X 的 终端 ， 输 
入 下 方 的 命令 提示 符 如 图 2-3 所 示 。 


pip3 install jupyter 


в 
ас -4 е 


2-3 22% Jupyter Notebook 


ЛКЫ Python 机 器 学 习 


稍 等 片刻 ，Jupyter Notebook 就 会 自动 安装 完成 。 在 安装 完成 后 ， 命 令 提示 符 会 提示 


Successfully installed jupyter-1.0.0， 如 图 2-4 中 划 线 部 分 所 示 : 


424 Windows 命令 提示 符 提示 Jupyter Notebook 安装 完成 


2.2.2 ”运行 Jupyter Notebook 


在 Windows 的 命令 提示 符 或 者 是 MAC OS X 的 终端 中 输入 jupyter notebook， 就 可 以 


启动 Jupyter Notebook， 如 图 2-5 所 示 。 


这 时 电脑 会 自动 打开 默认 的 浏览 器 ， 并 进入 Jupyter Notebook 的 初始 界面 ， 如 图 2-6 
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2-5 ”启动 Jupyter Notebook 
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2-6 Jupyter Notebook 界面 


2.2.3 Jupyter Notebook 的 使 用 方法 


启动 Jupyter Notebook 之 后 ， 我 们 就 可 以 使 用 它 工 作 了 。 首 先 我 们 要 先 建立 一 个 
notebook 文件 ， 单 击 右 上 角 的 Мем 按钮 ， 在 出 现 的 菜单 中 选择 Python 3， 如 图 2-7 所 示 。 
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2-7 在 Jupyter Notebook 中 新 建 一 个 文档 


之 后 Jupyter Notebook 会 自动 打开 新 建 的 文档 ， 并 出 现 一 个 空白 的 单元 格 (Cell》。 
现在 我 们 试 着 在 空白 单元 格 中 输入 如 下 代码 : 
SS 

按 下 Shift + 回 车 键 ， 你 会 发 现 Jupyter Notebook 已 经 把 代码 的 运行 结果 直接 放 在 了 
单元 格 下 方 ， 并 且 在 下 面 又 新 建 了 一 个 单元 格 ， 如 图 2-8 所 示 。 
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2-8 使 用 Jupyter Notebook 打印 “hello world” 


在 Jupyter Notebook 中 ，Shift + 回 车 表示 运行 代码 并 进入 下 一 个 单元 格 ， 而 Ctrl + 
回 车 表示 运行 代码 且 不 进入 下 一 个 单元 格 。 


现在 我 们 给 这 个 文档 重新 命名 为 “hello world”， 在 Jupyter Notebook 的 File 菜单 中 
找到 Rename 选项 ， 如 图 2-9 所 示 。 


2-9 对 文档 进行 重 命名 操作 


之 后 在 弹出 的 对 话 框 中 输入 新 名 词 “hello world”， 单 击 Rename 按钮 确认 ， 就 完成 
了 重 命 名 操作 。 由 于 Jupyter Notebook 会 自动 保存 文档 ， 此 时 我 们 已 经 可 以 在 初始 界面 看 
到 新 建 的 “hello world.ipynb” 文 件 了 ， 如 图 2-10 所 示 。 


гу 
O O-st 
7 r= 
D @ enia p 
О ро ге" 


СО а заз «ааа дела 


2-10 JÆ} hello world 文档 


Jupyter Notebook 还 有 很 多 奇妙 的 功能 ， 我 们 留 给 读者 慢 慢 探索 。 相 信 在 熟悉 之 后 ， 
读者 会 对 这 个 工具 爱不释手 的 。 
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2.3 一些 必需 库 的 安 委 及 功能 简介 


现在 我 们 已 经 安装 好 了 Python 和 Jupyter Notebook， 但 是 这 还 不 够 ， 我 们 还 需要 安 
装 一 些 库 ， 才 能 完成 本 书 内 容 的 学 习 与 练习 。 这 些 库 包 括 Numpy、Scipy、matplotlib、 
pandas、IPython， 以 及 非常 核心 的 scikit-learn。 下 面 我 们 一 起 来 安装 这 些 库 。 

首先 ， 如 果 你 用 的 是 MAC OS X， 那 安装 的 过 程 会 令 人 很 舒服 ， 你 只 需要 在 МАС 
的 终端 中 输入 一 行 命令 : 

sudo pip3 install numpy scipy matplotlib ipython pandas scikit-learn 

然后 安静 地 等 竺 计算 机 把 这 些 库 逐一 下 载 并 安装 好 就 可 以 了 。 

但 如 果 是 Windows 系统 ， 你 可 能 会 在 安装 Scipy 这 一 步 时 遇 到 一 些 问 题 ， 解 决 方法 
是 在 下 面 这 个 链接 中 手动 下 载 Numpy + MKL 的 安装 文件 和 Scipy 的 安装 文件 。 

http://wwwi.lfd.uci.edu/ ~ gohlke/pythonlibs/ 

在 这 个 链接 的 页 面 中 分 别 找到 和 你 的 系统 及 Python 版 本 相对 应 的 Numpy + MKL 安 
Ме ХЕ Scipy 安装 文件 ， 并 下 载 到 本 地 计算 机 ; 然后 以 管理 员 喘 份 运行 Windows 命令 
提示 符 ， 在 命令 提示 符 中 进入 两 个 安装 文件 所 在 的 目录 ， 输 入 命令 如 下 : 

pip install 安装 文件 全 名 

一 定 要 先 安 装 Numpy + MKL 安装 包 ， 再 安装 Scipy 才能 成 功 。 安 装 完 成 后 ， 在 
Python IDLE 中 输入 import + 库 名 称 来 验证 是 否 安装 成 功 ， 例 如 ， 想 知道 Scipy 是 否 安 装 
成 功 ， 就 在 IDLE 中 输入 如 下 代码 : 

import scipy 

如 果 没 有 报错 ， 则 说 明 安 装 已 经 成 功 ， 可 以 使 用 了 。 现 在 我 们 一 起 来 看 一 下 这 些 库 
的 主要 功能 。 


如 果 操 作 系统 是 Windows 10， 那 么 记得 用 管理 员 身 份 运行 命令 提示 符 ， 否 则 安装 
过 程 中 可 能 会 提示 拒绝 访问 。 


231 Numpy 一 一 基础 科学 计算 库 


Numpy 是 一 个 Python 中 非常 基础 的 用 于 进行 科学 计算 的 库 ， 它 的 功能 包括 高 维 数 
组 (агау) 计算 、 线 性 代数 计算 、 侍 里 叶 变 换 以 及 生产 伪 随 机 数 等 。Numpy 对 于 scikit- 
learn 来 说 是 至 关 重 要 的 ， 因 为 scikit-learn 使 用 Numpy 数组 形式 的 数据 来 进行 处 理 ， 所 
以 我 们 需要 把 数据 都 转化 成 Numpy 数组 的 形式 ， 而 多 维 数 组 (n-dimensional array) 也 是 


Numpy 的 核心 功能 之 一 。 为 了 让 读者 直观 了 解 Numpy 数组 ， 下 面 我 们 在 Python 的 IDLE 
中 新 建 一 个 文件 ， 然 后 输入 几 行 代码 来 进行 展示 : 


import numpy 

# 给 变量 i 赋值 为 一 个 数组 

і = потру.аггау (11520,13,141,125,9,17811) 
# 将 打印 出 来 

print (іса. Format (3) ) 


将 这 三 行 代 码 保存 成 一 个 py 文件 , 然后 在 编辑 器 窗口 按 F5 运行 ,我 们 会 得 到 如 图 2-11 
所 示 的 结果 。 


2-11 一 个 简单 的 numpy 数组 


【 结果 分 析 】 这 里 i 就 是 一 个 典型 的 Numpy 数组 ， 在 本 书 中 ， 我 们 会 大 量 用 到 
Numpy。 后 面 我 们 会 用 “np 数组 ”来 指 代 Numpy 数组 。 


对 于 零 基础 的 读者 来 说 ， 先 不 必 纠 结 Python 的 IDLE 编辑 器 用 法 ， 后 面 我 们 会 主 
要 使 用 Jupyter Notebook 来 进行 代码 的 编写 和 运行 。 


2.3.2 ”Scipy 一 一 强大 的 科学 计算 工具 集 


Scipy 是 一 个 Python 中 用 于 进行 科学 计算 的 工具 集 ， 它 有 很 多 功能 ， 如 计算 统计 学 
分 布 、 信 号 处 理 、 计 算 线 性 代数 方程 等 。scikit-learn 需要 使 用 Scipy 来 对 算法 进行 执行 ， 
其 中 用 得 最 多 的 就 是 Scipy 中 的 sparse A% y o sparse АНЖЕ ВЕЕ Е, ПЕЕ 
阵 用 来 存储 那些 大 部 分 数值 为 0 的 np 数组 ， 这 种 类 型 的 数组 在 scikit-learn 的 实际 应 用 中 
也 非常 常见 。 

下 面 我 们 用 几 行 代码 来 展示 一 下 sparse 函数 的 用 法 : 


import numpy аз пр 
from зстру Import зрагзе 


matrix = пр.еуе (6) 
# ЕТ Воппруб еуей ЖЕЖ--Т6 МЛ АВ Е 
ЕЕЕ ФУУ Е Ул 8018 091, Кабо 


sparse matrix = зрагзе.сзг matrix (matrix) 
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# 这 一 行 把 np 数组 转化 为 CSR 格 式 的 Scipy 稀 朴 和 矩阵 (sparse matrix ) 
#sparse 函 数 只 会 存储 非 0 元 素 


print (" 对 角 和 矩阵 : \n{}".format (matrix)) 

Е БВУ АВЕ ВЕ ТЕЖ 

print ("\пзрагзе ЕР ЕЕ: \n{}".format (sparse таїгіх)) 
#4 ѕрагзера ŇA EEE ERT 


运行 代码 得 到 结果 如 图 2-12 г. 
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2-12 ”对 角 和 矩阵 和 sparse 存储 的 矩阵 


【 结果 分 析 】 在 上 面 的 代码 中 ， 我 们 使 用 了 numpy 的 eye 函数 生成 了 一 个 6 行 6 列 
的 对 角 和 矩阵 ， 所 谓 对 角 和 矩阵 ， 即 和 矩阵 从 左上 角 到 右 下 角 的 对 角 线 位 置 上 的 数值 都 是 1, 
而 其 他 的 位 置 都 是 0。 而 用 sparse 进行 转换 后 , 我 们 可 以 看 到 和 矩阵 的 形式 发 生 了 一 些 变化 。 
(0,0) 表示 和 矩阵 的 左上 角 ， 这 个 点 对 应 的 值 是 1.0， 而 〈1，1) 代表 和 矩阵 的 第 2 行 第 2 列 ， 
这 个 点 对 应 的 数值 也 是 1.0， 依 此 类 推 ， 直 到 右 下 角 的 点 (5，5) 。 

从 上 面 的 代码 和 运行 结果 中 ， 我 们 可 以 大 致 理解 sparse 函数 的 工作 原理 ， 在 后 面 的 
内 容 中 ， 我 们 还 会 接触 到 Scipy 更 多 的 功能 。 


2.3.3 ”pandas 一 一 效 据 分 析 的 利 需 


pandas 是 一 个 Python 中 用 于 进行 数据 分 析 的 库 ， 它 可 以 生成 类 似 Excel 表格 式 的 数 
据 表 ， 而 且 可 以 对 数据 表 进 行 修改 操作 。pandas 还 有 个 强大 的 功能 ， 它 可 以 从 很 多 不 同 
种 类 的 数据 库 中 提取 数据 ， 如 SQL 数据 库 、Excel 表格 甚至 CSV 文件 。pandas 还 支持 在 
不 同 的 列 中 使 用 不 同类 型 的 数据 ， 如 整 型 数 、 浮 点 数 ， 或 是 字符 串 。 下 面 我 们 用 一 个 例 
子 来 说 明 pandas 的 功能 。 在 Jupyter Notebook 中 输入 代码 如 下 : 


import pandas 


# 先 创建 一 个 同学 个 人 信息 的 小 数据 集 


= 


С 019 > 


深入 浅 出 Python 机 器 学 习 


data = { "Мате": Г"/Ј\ 6", пура", "Ма", "МВ" 1 
"сісу": ГЕ", "Бб", "Н", 1"), 
"Аде" Н Ва а асе E "24" ] p 
agl E Eei: t bati ра аа E fh E АЕТ 0. 

data_frame = pandas .DataFrame (data) 

display (data Егапе) 


运行 上 述 代 码 ， 会 得 到 一 个 数据 表 如 图 2-13 所 示 。 


2-13 pandas.Dataframe 生成 的 数据 表 


同时 ， 我 们 还 可 以 从 数据 表 中 进行 查询 操作 ， 例 如 我 们 想 把 不 在 北 京 的 同学 信息 显 
示 出 来 ， 可 以 输入 下 面 这 一 行 代码 : 


display (даба frame[data frame.City != "北京 "] ) 
# 显 示 所 有 不 在 北京 的 同学 信息 


运行 结果 如 图 2-14 所 示 。 


2-14 显示 所 有 不 在 北京 的 同学 信息 


现在 我 们 对 pandas 有 了 一 些 初 步 的 了 解 ， 在 本 书后 面 的 内 容 中 ， 我 们 还 将 深入 讲解 
pandas 的 功能 和 用 法 。 


MRR EÉ 


matplotlib 是 一 个 Python 的 绘图 库 ， 它 以 各 种 人 硬 找 贝 格式 和 跨 平 台 的 交互 式 环境 生成 
出 版 质量 级 别 的 图 形 ， 它 能 够 输出 的 图 形 包括 折线 图 、 散 点 图 、 直 方 图 等 。 在 数据 可 视 
化 方面 ，matplotlib 拥有 数量 众多 的 忠实 用 户 ， 其 强悍 的 绘图 能 力 能 够 帮 我 们 对 数据 形成 
非常 清晰 直观 的 认 知 。 下 面 我 们 来 简单 展示 一 下 matplotlib 的 能 力 ， 在 Jupyter Notebook 
中 输入 如 下 代码 : 


2.3.4 matplotlib 


С 020 > 
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šmatplotlib inline 
# 激 活 matp1lLot1lib 
import matplotlib.pyplot аз 


# 下 面 先 生成 一 个 从 -20 到 20， 元 素数 为 10 的 等 差 数列 
х = пр.1іпзрасе (-20,20,10) 


HAST у = х^3 + 2х72 + бх + 5 
у- ЖУТ ОА ха тт их то 
# Т 8 2 хижи H 


р1с.р1о: (х,у, тагкег = "о") 


运行 代码 可 以 得 到 结果 如 图 2-15 所 示 。 
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2-15 使 用 matplotlib 绘制 的 图 像 


在 代码 开头 的 %matplotlib inline 允许 Jupyter Notebook 进行 内 置 实时 绘图 。 如 果 
Rt 则 需要 在 最 后 加 入 plt.show() 这 一 句 ， 才 能 让 图 形 显示 出 来 。 这 两 种 
方法 在 本 书 中 都 会 涉及 。 


2.4 scikit-learn 一 一 非常 流行 的 Python 机 器 学 习 库 


scikit-learn 是 如 此 重要 ， 以 至 于 我 们 需要 单独 对 它 进 行 一 些 介绍 。scikit-learn 是 一 
个 建立 在 Scipy 基础 上 的 用 于 机 器 学 习 的 Python 模块 。 而 在 不 同 的 应 用 的 领域 中 ， 已 
经 发 展 出 为 数 众 多 的 基于 Scipy 的 工具 包 ， 它 们 被 统一 称 为 Scikits。 而 在 所 有 的 分 支 版 
本 中 ，scikit-learn 是 最 有 名 的 。 它 是 开源 的 ， 任 何人 都 可 以 免费 地 使 用 它 或 者 进行 二 次 
发 行 。 

scikit-learn 包含 众多 顶级 机 器 学 习 算 法 ， 它 主要 有 六 大 类 的 基本 功能 ， 分 别 是 分 类 、 
回归 、 聚 类 、 数 据 降 维 、 模 型 选择 和 数据 预 处 理 。scikit-learn 拥有 非常 活跃 的 用 户 社区 ， 


基本 上 其 所 有 的 功能 都 有 非常 详尽 的 文档 供用 户 查 阅 ， 我 们 也 建议 读者 可 以 抽 时 间 认 真 
研究 一 下 scikit-learn 的 用 户 指南 以 及 文档 ， 以 便 对 其 算法 的 使 用 有 更 充分 了 解 。 


2.5 ”小结 


回顾 一 下 ， 在 这 一 章 中 ， 我 们 一 起 配置 好 了 开发 环境 ， 并 学 习 了 Numpy、Scipy、 
matplotlib, pandas, scikit-learn 等 库 的 安装 和 基本 使 用 方法 ， 同 时 对 Jupyter Notebook 以 
及 了 Python 自 带 的 IDLE 编辑 器 也 有 了 一 定 的 了 解 。 接 下 来 在 第 3 章 中 ， 我 们 将 详细 介绍 
К 最 近邻 算法 以 及 它 的 使 用 方法 ， 和 希望 读者 能 够 从 中 学 到 对 自己 有 用 的 知识 。 


RI ки НА 近 拓 者 赤 ， 近 时 着 黑 


眼看 没 几 天 ， 就 要 到 七 夕 佳节 了 ， 人 小 C 打算 筹备 个 烛光 晚餐 ， 和 女 朋 友 浪 漫 一 下 。 
说 到 烛光 晚餐 ， 自 然 是 得 有 瓶 好 酒 助兴 。 可 惜 小 C 同学 对 酒 实在 没有 什么 研究 ， 连 最 基 
本 的 酒 的 分 类 也 说 不 清楚 ， 看 来 又 得 求助 机 器 学 习 了 。 

本 章 我 们 将 介绍 K 最 近邻 算法 (人 -Nearest Neighbors, KNN ) 的 原理 和 它 的 基本 应 用 ， 


并 用 它 来 帮助 小 C 对 酒 进行 分 类 。 


- – – „ 一 -.----- 
----- ----- ms --.-.-- 
б а на а а а а --- .---< 一 
------- жале 


本 章 主 要 涉及 的 知识 点 有 : 


э 


э 


э 


э 


K 最 近邻 算法 的 原理 

K 最 近邻 算法 在 分 类 任务 中 的 应 用 

K 最 近邻 算法 在 回归 分 析 中 的 应 用 
使 用 KK 最 近邻 算法 对 酒 的 分 类 进行 建 模 
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3.1 K 最 近邻 算法 的 原理 


К 最 近邻 算法 的 原理 ， 正 如 我 们 本 章 标题 所 说 一 一 近 朱 者 赤 ， 近 墨 者 黑 。 想 象 一 下 
我 们 的 数据 集 里 面 有 一 半 是 “ 朱 ” (图 中 浅 色 的 点 ) ， 另 一 半 是 “ 墨 ”《〈 图 中 深 色 的 点 ) 。 
现在 有 了 一 个 新 的 数据 点 , 颜色 未 知 , 我 们 怎么 判断 它 属于 哪 一 个 分 类 呢 ? 如 图 3-1 所 示 。 


3-1 判断 新 数据 点 属于 “ 朱 ” 还 是 “ 墨 ” 


对 于 KK 最 近邻 算法 来 说 ， 这 个 问题 就 很 简单 : 新 数据 点 离 谁 最 近 ， 就 和 谁 属于 同 
一 类 ， 从 图 3-1 中 我 们 可 以 看 出 ， 新 数据 点 距离 它 8 点 钟 方 问 的 浅 色 数据 点 最 近 ， 那 么 
理 所 应 当地 ， 这 个 新 数据 点 应 该 属于 浅 色 分 类 了 ， 如 图 3-2 所 示 。 


3-2 ”最 近邻 数 等 于 1 时 的 分 类 


看 起 来 ，K 最 近邻 算法 真是 够 简单 的 ， 这 么 轻松 就 完成 了 分 类 的 工作 。 别 急 ， 我 们 
还 没 说 完 。 刚 才 只 是 举 的 最 简单 的 例子 ， 选 的 最 近邻 数 等 于 1。 但 如 果 我 们 在 模型 训练 
过 程 中 让 最 近邻 数 等 于 1 的 话 ， 那 么 非常 可 能 会 犯 了 “一 叶 障 目 ， 不 见 泰山 ”的 错误 ， 
试想 一 下 ， 万 一 和 新 数据 点 最 近 的 数据 恰好 是 一 个 测定 错误 的 点 呢 ? 

所 以 需要 我 们 增加 最 近邻 的 数量 ， 例 如 把 最 近邻 数 增 加 到 3， 然 后 让 新 数据 点 的 分 
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类 和 3 个 当中 最 多 的 数据 点 所 处 的 分 类 保持 一 致 ， 如 图 3-3 所 示 。 


3-3 ”最 近邻 数 等 于 3 时 的 分 类 


从 图 3-3 中 我 们 看 到 ， 当 我 们 令 新 数据 点 的 最 近邻 数 等 于 3 的 时 候 ， 也 就 是 找 出 离 
新 数据 点 最 近 的 З 个 点 ， 这 时 我 们 发 现 与 新 数据 点 距离 最 近 的 3 个 点 中 ， 有 2 个 是 深 色 ， 
而 只 有 1 个 是 浅 色 。 这 样 一 来 ，K 最 近邻 算法 就 会 把 新 数据 点 放 进 深 色 的 分 类 当中 。 

以 上 就 是 K 最 近邻 算法 在 分 类 任务 中 的 基本 原理 ， 实 际 上 K 这 个 字母 的 含义 就 是 最 
近邻 的 个 数 。 在 scikit-learn F, К 最 近邻 算法 的 K 值 是 通过 n_neighbors 参数 来 调节 的 ， 
默认 值 是 5。 


K 最 近 算 法 也 可 以 用 于 回归 ， 原 理 和 其 用 于 分 类 是 相同 的 。 当 我 们 使 用 K 最 近邻 回 


归 计 算 某 个 数据 点 的 预测 值 时 , 模型 会 选择 离 该 数据 点 最 近 的 若干 个 训练 数据 集中 的 点 ， 
并 且 将 它们 的 y 值 取 平 均值 ， 并 把 该 平均 值 作为 新 数据 点 的 预测 值 。 


3.2 KK 最 近邻 算法 的 用 法 


在 这 一 小 节 中 ， 我 们 会 各 大 家 展示 К 最 近邻 算法 在 分 类 和 回归 任务 当中 的 应 用 ， 请 
大 家 准备 好 Jupyter notebook， 和 我 们 一 起 进行 实验 吧 。 


3.2.1 最 近邻 算法 在 分 类 任务 中 的 应 用 


在 scikit-learn 中 ， 内 置 了 若干 个 玩具 数据 集 (Toy Datasets) ， 还 有 一 些 API 让 我 们 
可 以 自己 动手 生成 一 些 数 据 集 。 接 下 来 我 们 会 使 用 生成 数据 集 的 方式 来 进行 展示 ， 请 大 
家 在 Jupyter notebook 中 输入 代码 如 下 : 

# 导 入 数据 集 生 成 器 
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from sklearn.datasets import make blobs 

# 导 入 KNN 分 类 器 

from sklearn.neighbors import KNeighborsClassifier 

# 导 入 画图 工具 

import matplotlib.pyplot аз pilt 

# 导 入 数据 集 拆 分 工具 

from sklearn.model selection import train test split 

# 生 成 样本 数 为 200 ， 分 类 为 2 的 数据 集 

data = таке blobs (п samples=200, centers =2, Iandom state=8) 
X, у = data 

# 将 生成 的 数据 集 进行 可 视 化 

plt.scatter (X[:,0], Х[:,1], c=y, cmap=plt.cm.spring, edgecolor='k') 
plt.show () 


在 这 段 代码 中 ， 我 们 使 用 了 scikit-learn 的 make_blobs 函数 来 生成 一 个 样本 数量 为 
200， 分 类 数量 为 2 的 数据 集 ， 并 将 其 赋值 给 X 和 y， 然 后 我 们 用 matplotlib 将 数据 用 
形 表示 出 来 ， 运 行 代 码 ， 会 得 到 如 图 3-4 所 示 的 结果 。 


3-4 使 用 make_blobs 生成 的 数据 集 


【 结果 分 析 】 从 图 3-4 中 可 以 看 出 ，make_blobs 生成 的 数据 集 一 共有 两 类 ， 其 中 一 
类 用 深 色 表示 ， 而 另外 一 类 用 浅 色 表示 。 读 者 朋友 可 能 有 点 疑惑 : 这 不 是 已 经 进行 好 分 
类 了 吗 ? 我 们 还 需要 К 最 近邻 算法 做 什么 呢 ? 
这 确实 是 初学 者 非常 容易 提出 的 问题 ， 答 案 是 这 样 的 一 一 我 们 这 里 生成 的 数据 集 ， 
可 以 看 作 机 器 学 习 的 训练 数据 集 ， 是 已 知 的 数据 。 我 们 就 是 基于 这 些 数据 用 算法 进行 模 
型 的 训练 ， 然 后 再 对 新 的 未 知 数据 进行 分 类 或 者 回归 。 
下 面 我 们 就 使 用 К 最 近邻 算法 来 拟 合 这 些 数 据 ， 输 入 代码 如 下 : 
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import numpy аз пр 
clf = KNeighborsClassifier () 
CIC у) 


# 下 面 的 代码 用 于 画图 

х min, х max = Х[:, 0] .min() - 1, X[:, 0] .max() + 1 

у min, у max = X[:, 1] .min() - 1, X[:, 11-шах() + 1 

хх, уу = np.meshgrid(np.arange (х тіп, x тах, .02), 
пр.агапде (у тіп, у тах, .02)) 

а = сІЁ.ргеаісі (пр.с [хх.гауе1 (), уу.гауе1 ()]) 

Z = 2. гезһаре (хх. зһаре) 

ріё.рсо1іогтезћһ (хх, уу, 2, сшар-р1 5. сш.Разте11) 

plt.scatter(X[:, 0], X[:, 1], с-у, cmap=plt.cm. spring, еддесо1ог='К') 

ръж зш(хж.што(), хх.шак()) 

ріё.у1Іітм (уу.ш1п (), уу-.шах()) 

plt.title("Classifier:KNN") 


plt.show () 
运行 代码 ， 会 得 到 如 图 3-5 所 示 的 结果 。 


Classifier:KNN 


4 5 6 fi 8 9 10 11 
图 3-5 使 用 K 最 近邻 算法 创建 的 分 类 模型 

【 结果 分 析 】 从 图 3-5 中 我 们 可 以 看 到 ，K 最 近邻 算法 基于 数据 集 创建 了 一 个 分 类 
模型 ， 就 是 图 中 粉色 区 域 和 灰色 区 域 组 成 的 部 分 。 那 么 如 果 有 新 的 数据 输入 的 话 ， 模 型 
就 会 自动 将 新 数据 分 到 对 应 的 分 类 中 。 

例如 ， 我 们 假设 有 一 个 数据 点 ， 它 的 两 个 特征 值 分 别 是 6.75 和 4.82， 我 们 来 试验 下 
模型 能 不 能 将 它 放 到 正确 的 分 类 中 ， 首 先 我 们 可 以 在 上 面 那 段 代 码 中 ，plt.show0 之 前 加 
一 行 代码 如 下 : 
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再 次 运行 代码 ， 会 得 到 结果 如 图 3-6 Тя. 
Classifier:KNN 


3-6 新 的 数据 点 所 在 的 位 置 


【 结果 分 析 】 图 3-6 中 五 角 星 就 代表 了 新 的 数据 点 所 在 的 位 置 ， 可 以 看 到 К 最 近邻 
算法 将 它 放 在 了 下 方 的 区 域 ， 和 浅 色 的 数据 点 归 为 了 一 类 。 
下 面 我 们 再 验证 一 下 ， 输 入 代码 如 下 : 


运行 代码 ， 我 们 将 得 到 结果 如 图 3-7 所 示 。 


3-7 分 类 器 对 新 数据 点 的 分 类 判断 


【 结果 分 析 】 看 起 来 ，K 最 近邻 算法 的 工作 成 果 还 是 很 不 错 的 ， 不 过 这 可 能 是 因为 
我 们 这 次 的 任务 有 点 太 简 单 了 。 下 面 我 们 给 它 增 加 一 点 难度 一 一 处 理 多 元 分 类 任务 。 
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3.22 ”下 最 近邻 算法 处 理 多 元 分 类 任务 


接 下 来 ， 我 们 要 先生 成 多 元 分 类 任务 所 使 用 的 数据 集 ， 为 了 让 难度 足够 大 ， 这 次 
我 们 通过 修改 make_blobs 的 centers 参数 ， 把 数据 类 型 的 数量 增加 到 5 个 ， 同 时 修改 n_ 
samlpes 参数 ， 把 样本 量 也 增加 到 500 个 ， 输 入 代码 如 下 : 

# 生 成 样本 数 为 500 ， 分 类 数 为 5 的 数据 集 


data2 = таке blobs (п samples=500, септегз-о,гапдош state=8) 
х2,у2 = data2 

# 用 散 点 图 将 数据 集 进 行 可 视 化 

plt.scatter (Х2[:,0],Х2[:,1],с=у2, cmap=plt.cm.spring,edgecolor="k") 
plt.show () 


运行 代码 ， 会 得 到 结果 如 图 3-8 所 示 的 结果 。 


-7.5 -5.0 -25 00 25 50 7.5 100 
图 3-8 分 类 数量 为 5 的 数据 集 


【 结果 分 析 】 从 图 3-8 中 我 们 可 以 看 到 ， 新 的 数据 集 的 分 类 数量 变 成 了 5 个 ， 而 其 
中 有 两 类 数据 还 有 一 些 重合 〈 图 片 中 心 位 置 的 点 ) ， 这 下 难度 提高 了 不 少 。 
让 我 们 再 次 用 К 最 近邻 算法 建立 模型 来 拟 合 这 些 数据 ， 输 入 代码 如 下 : 


clf = KNeighborsClassifier () 
lit lr y2) 


# 下 面 的 代码 用 于 画图 

х тіп, х max = X2[:, 0] .min() - 1, X2[:, 0] .max() + 1 

у піп, у шах = Х2|:, 11.шп() - 1, Х2[:, L| mazi + 1 

хх, уу = пр.шпезпагта (пр.агапде (x тіп, х max, -02), 
пр.агапде (у тіп, у max, .02)) 

2 clf.predict (пр.с [хх.гауе1 (), уу. гауе1 () |) 

2 2. гезһаре (xx. shape) 

plt.pcolormesh (хх, уу, Z, сшар-р1 5. сш.Разе11) 
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р1с.зсагтег (Х2[:, 0], Х2[:, 1], с=у2, cmap pit -cm.spring, еддесо1ог-"К") 
ріё.х1ім(хх.тіп(), хх.тах ()) 

рі.у1ім (уу.тіпр (), уу. тах ()) 

plt.title("Classifier:KNN") 


plt.show() 
运行 代码 ， 将 会 得 到 如 图 3-9 所 示 的 结果 。 


Classifier:KNN 


-75 -50 -25 00 25 50 75 100 
图 3-9 K 最 近邻 算法 对 5 类 数据 进行 的 分 类 
【 结果 分 析 】 从 图 3-9 中 我 们 可 以 看 到 ，K 最 近邻 算法 仍然 可 以 把 大 部 分 数据 点 放 
置 于 正确 的 分 类 中 ， 但 有 一 小 部 分 数据 还 是 进入 了 错误 的 分 类 中 ， 这 些 分 类 错误 的 数据 
点 基本 都 是 互相 重合 的 位 于 图 像 中 心 位 置 的 数据 点 。 
那么 模型 的 正确 率 究 竟 有 多 高 呢 ? 我 们 用 下 面 的 代码 来 进行 一 下 评分 : 
# 将 模型 的 评分 进行 打印 


ргіпі ( "\п\п\п') 
print (' 代 码 运 行 结果 : ') 


рг INE ( 1 一 一 二 二 一 一 一 一 一 一 二 二 一 二 二 二 二 一 二 二 二 二 二 二 一 一 一 二 一 一 ) 
print(' 模 型 正确 率 : {:.2f}'.format (с1Е.зсоге(Х2,у2))) 
рг Int ( 1 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 1' ) 


ргіпі ( "\п\п\п') 


运行 代码 ， 可 以 得 到 结果 如 图 3-10 所 示 。 


3-10 ”模型 在 新 数据 集中 的 得 分 
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【 结果 分 析 】 看 来 虽然 我 们 故意 刁难 了 KK 最 近邻 算法 一 下 ， 但 它 仍然 能 够 将 96% 的 
数据 点 放 进 正确 的 分 类 中 ， 这 个 结果 可 以 说 还 是 相当 不 错 的 。 
接 下 来 ， 我 们 再 试 试 使 用 К 最 近邻 算法 来 进行 回归 分 析 ， 看 看 结果 如 何 。 


323 下 最 近邻 算法 用 于 回归 分 析 


在 scikit-learn 的 数据 集 生成 器 中 ， 有 一 个 非常 好 的 用 于 回归 分 析 的 数据 集 生成 器 ， 
make_regression 图 数 ， 这 里 我 们 使 用 make_regression 生成 数据 集 来 进行 实验 ， 演 示 К 最 
近邻 算法 在 回归 分 析 中 的 表现 。 


首先 我 们 还 是 先 来 生成 数据 集 ， 输 入 代码 如 下 : 
# 导 入 make regression 数据 集 生成 器 


from sklearn.datasets import make гедгезз1оп 


# 生 成 特征 数量 为 1 ， 噪 音 为 50 的 数据 集 


X. у = таке гедгеззіоп (п features=l,n informative=l, поізе=50, random зёаёе=8) 


# 用 散 点 图 将 数据 点 进行 可 视 化 
plt.scatter (X,y,c='orange',edgecolor='k') 
ртЕ. show(} 


为 了 方便 画图 ， 我 们 选择 样本 的 特征 数量 仅 为 1 个 ， 同 时 为 了 增加 难度 。 我 们 添加 
标准 差 为 50 的 noise， 运 行 代码 ， 将 会 得 到 如 图 3-11 所 示 的 结果 。 


Я Е =] 0 1 2 
3-11 Ж таке гесгеѕѕіоп 生成 的 数据 集 


【 结果 分 析 】 从 图 3-11 中 我 们 可 以 看 到 ， 横 轴 代 表 的 是 样本 特征 的 数值 ， 范 围 大 概 
在 -3 ~ 3; 纵 轴 代表 样本 的 测定 值 ， 范 围 大 致 在 -250 ~ 250. 
下 面 我 们 使 用 К 最 近邻 算法 来 进行 回归 分 析 ， 输 入 代码 如 下 : 
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# 导 入 用 于 回归 分 析 的 KNN 模 型 

from sklearn.neighbors import KNeighborsRegressor 
гед = KNeighborsRegressor() 

# 用 KNN 模 型 拟 合 数据 

reg .fit (X, y) 

# 把 预测 结果 用 图 像 进行 可 视 化 

z = np.linspace(-3,3,200) .reshape(-1,1) 
plt.scatter (X,y,c='orange',edgecolor="k") 
plt.plot (z, reg.predict(z),c='k',1linewidth=3) 


# 向 图 像 添 加 标题 

plt.title('KNN Ведгеззог") 

рі. зпои () 

运行 代码 ， 将 会 得 到 如 图 3-12 所 示 的 结果 。 


KNN Regressor 


3 -2 =] 0 1 2 3 
3-12 使 用 最 近邻 算法 对 数据 进行 回归 分 析 


【 结果 分 析 】 图 3-12 中 黑色 的 曲线 代表 的 就 是 K 最 近邻 算法 拟 合 make_regression 
生成 数据 所 进行 的 模型 。 直 观 来 看 ， 模 型 的 拟 合 程度 并 不 是 很 好 ， 有 大 量 的 数据 点 都 没 
有 被 模型 覆盖 到 。 

现在 我 们 尝试 给 模型 进行 评分 ， 看 看 结果 如 何 ， 输 入 代码 如 下 : 


ргіпі ( "\п\п\п') 
print(' 代 码 运行 结果 : ") 


рг IDE ( Г 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ) 
print{ ' 模 型 评分 : {:.2f}'.format (гед.зсоге (Х,у))) 
рг Int ( 1 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 "' ) 


ргіпі ( "\п\п\п') 


运行 代码 ， 会 得 到 结果 如 图 3-13 所 示 。 
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3-13 ”最 近邻 数 为 5 时 KKNN 回归 模型 的 得 分 


【 结果 分 析 】 模 型 的 得 分 只 有 0.77， 这 是 一 个 差强人意 的 结果 ， 和 我 们 目测 的 情况 
基本 一 致 ， 为 了 提高 模型 的 分 数 ， 我 们 将 К 最 近邻 算法 的 近邻 数 进行 调整 。 由 于 在 默认 
的 情况 下 ，K 最 近邻 算法 的 n_neighbors 为 5， 我 们 尝试 将 它 减 少 。 

输入 代码 如 下 : 

from sklearn.neighbors import KNeighborsRegressor 

# 减 少 模型 的 n neighbors 参 数 为 2 

reg2 = KNeighborsRegressor (n neighbors=2) 

reg2 .ft (х,у) 

# 重 新 进行 可 视 化 

plt.scatter (Х, у,с- "огапде" ,еддесо1ог-"К") 

plt.plot (z, гед2.ргеаісії (2), с='К',1іпеміаёһ=3) 

pit.titliel( KNN Кедгеззог: п пеідһрогз=2') 

рі. зһом () 


在 这 段 代码 中 ， 我 们 将 K 最 近邻 算法 的 n_neighbors Е) 2, НЕА, 
将 会 得 到 如 图 3-14 所 示 的 结果 。 


KNN Regressor:n neighbors=2 


3-14 n_neighbors=2 时 的 模型 


【 结果 分 析 】 从 图 3-14 中 我 们 可 以 看 到 ， 相 对 于 图 3-10 来 说 ， 黑 色 曲 线 更 加 积极 
地 试图 覆盖 更 多 的 数据 点 ， 也 就 是 说 ， 模 型 变 得 更 复杂 了 。 看 起 来 比 n_neighbors 等 于 5 
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的 时 候 更 加 准确 了 ， 我 们 再 次 进行 评分 ， 看 看 分 数 是 否 有 了 提高 。 
输入 代码 如 下 : 


printl n\n vn) 
print (Киа АЯ. ') 


preine --ъът 
print (' 模 型 评分 : {:.2f}'.format (reg2.score(X,y))) 
和 和 J， QQ 和 8 


print('\nynn") 


运行 代码 ， 会 得 到 如 图 3-15 所 示 的 结果 。 


3-15 ”降低 n_neighbors 参数 数值 后 的 模型 得 分 


【 结果 分 析 】 和 我 们 预料 的 一 样 ， 模 型 的 评分 从 0.77 提升 到 了 0.86， 可 以 说 是 有 显 
兰 的 提升 。 不 过 以 上 都 是 基于 我 们 虚构 的 数据 所 进行 的 实验 ， 接 下 来 我 们 用 一 个 来 日 真 
实 世 界 的 数据 集 来 进行 К 最 近邻 算法 的 实战 。 


3.3 KK 最 近邻 算法 项 目 实战 一 一 酒 的 分 类 


在 看 完 上 面 的 内 容 之 后 ， 我 们 和 大 家 一 起 动手 ， 用 天 最 近邻 算法 帮助 小 C 对 酒 的 
分 类 进行 建 模 。 这 里 建议 读者 一 定 要 跟着 书本 的 内 容 目 己 把 代码 禹 一 遇 ， 这 样 可 以 对 
Python 中 几 个 用 于 机 器 学 习 的 功能 库 有 更 加 直观 的 体会 。 


3.3.1 对 数据 集 进 行 分 析 


在 本 节 中 ， 我 们 将 使 用 scikit-learn 内 置 的 酒 数据 集 来 进行 实验 ， 这 个 数据 集 也 包含 
在 scikit-learn 的 datasets 模块 当中 。 下 面 我 们 在 Jupyter Notebook 中 新 建 一 个 Python 3 的 
记事 本 ， 从 头 开始 完成 这 个 小 项 目 。 

首先 ， 我 们 要 把 酒 的 数据 集 载 入 项 目 中 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 


from sklearn.datasets import load wine 
# 从 sklearn 的 datasets 模 块 载 入 数据 集 


міпе dataset = load міпе () 


现在 读者 朋友 可 能 会 比较 好 奇 这 个 酒 数据 集中 的 数据 都 包含 些 什么 。 实 际 上 ， 使 用 
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load_wine 函数 载 入 的 酒 数 据 集 ， 是 一 种 Bunch 对 象 ， 它 包括 键 (keys) 和 数值 (values) ， 


下 面 我 们 来 检查 一 下 酒 数据 集 都 有 哪些 键 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 


# 打 印 酒 数据 集中 的 键 
ргіпі ( "\п\п\п') 
print (' 代 码 运 行 结果 : 


ргіп пі ( 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
print ("红河 数据 集中 的 键 :\n{}".format (wine dataset.keys())) 
print{" \n\n\n') 


运行 代码 ， 会 得 到 结果 如 图 3-16 所 示 。 


Fani 


П ПРИЕ 
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3-16 酒 的 数据 集中 的 键 


【 结果 分 析 】 从 结果 中 我 们 可 以 看 出 , 酒 数 据 集 中 包括 数据 “data”, 目标 分 类 “target ”， 
目标 分 类 名 称 “target_names”， 数 据 描述 “DESCR”， 以 及 特征 变量 的 名 称 “features _ 
names”。 

那么 这 个 数据 集中 究竟 有 多 少 样本 (samples) ， 又 有 多 少 变 量 (features) 呢 ? 可 以 
使 用 .shape 语句 来 让 Python 告诉 我 们 数据 的 大 概 轮廓 ， 在 Jupyter Notebook 中 输入 代码 


ш Е: 


# 使 用 .shape 来 打印 数据 的 概况 
ретп Vn) 
print (' 代 码 运 行 结果 : 


print ("==============================" 
резне |" 数据 概况 : {}" .format (wine дагазет | "даса" | .shape) ) 
print ('\n\n\n') 


运行 代码 ， 会 得 到 结果 如 图 3-17 所 示 。 


ПИЕ М: пн. 111 


3-17 酒 的 数据 集 的 概况 
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【 结果 分 析 】 从 图 3-17 中 我 们 可 以 看 出 ， 酒 数据 集中 共有 178 个 样本 ， 每 条 数据 有 
13 个 特征 变量 。 
更 细节 的 信息 ， 我 们 可 以 通过 打印 DESCR 键 来 获得 ， 下 面 我 们 输入 代码 如 下 : 
# 打 印 酒 的 数据 集中 的 简短 描述 


print (wine dataset['DESCR"]) 
运行 代码 ， 我 们 将 会 看 到 一 段 很 长 的 描述 ， 如 图 3-18 所 示 。 


| 
в в ш анла в в тв кто ваза 


3-18 ВАЖНО ТАЈ ЗН 


【 结果 分 析 】 从 结果 中 我 们 可 以 看 出 ， 酒 数据 集中 的 178 个 样本 被 归 入 3 个 类 别 中 ， 
分 别 是 class 0, class_1 和 class_2, 其 中 class_0 中 包含 59 个 样本 , class_1 中 包含 71 个 样本 ， 
class_2 中 包含 48 个 样本 。 而 从 1) 至 13) 分 别 是 13 个 特征 变量 ,包括 酒精 含量 、 苹 果 酸 、 
镁 含量 、 青 花 素 含 量 、 色 彩 饱 和 度 等 。 我 们 先 不 用 管 每 一 个 变量 具体 的 含义 ， 接 下 来 先 
对 数据 进行 一 些 处 理 。 


3.3.2 ”生成 训练 数据 集 和 测试 数据 集 


在 我 们 创建 一 个 能 够 目 动 将 酒 进行 分 类 的 机 器 学 习 的 算法 模型 之 前 ， 先 要 能 够 对 模 
型 的 可 信和 度 进行 评判 ， 否 则 我 们 无 法 知道 它 对 于 新 的 酒 所 进行 的 分 类 是 否 准 确 。 那 么 问 
题 来 了 ， 如 果 我 们 用 生成 模型 的 数据 去 评估 算法 模型 ， 那 得 分 肯定 是 满分 ， 这 就 好 像 我 
们 按照 一 个 体重 75kg 的 人 的 喘 材 数据 缝 制 了 一 件 衣 服 ， 那 么 这 件 衣服 对 于 这 个 人 肯定 是 
百 分 之 一 百合 身 的 ， 但 如 果 换 了 一 个 体重 85kg 的 人 ， 这 件 衣服 就 不 一 定 合 适 了 。 

所 以 我 们 现在 要 做 的 工作 是 ， 把 数据 集 分 为 两 个 部 分 : 一 部 分 称 为 训练 数据 集 ; 男 
一 部 分 称 为 测试 数据 集 。 训 练 数 据 集 就 好 比 我 们 颖 制 衣服 时 所 用 到 的 模特 的 身材 ， 而 测 
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试 数 据 集 则 是 用 来 测试 这 件 衣服 ， 对 于 别人 来 说 究竟 有 多 合身 的 模特 。 

在 scikit-learn 中 , 有 一 个 train_test_split 函数 , 它 是 用 来 帮助 用 户 把 数据 集 拆 分 的 工具 。 
其 工作 原理 是 : train_test_split 函数 将 数据 集 进 行 随机 排列 ， 在 默认 情况 下 将 其 中 75% 的 
数据 及 所 对 应 的 标签 划 归 到 训练 数据 集 ， 并 将 其 余 25% 的 数据 和 所 对 应 的 标签 划 归 到 测 
试 数据 集 。 


ES 我 们 一 般 用 大 写 的 X 表示 数据 的 特征 ， 而 用 小 写 的 y 表示 数据 对 应 的 标签 。 这 是 
X 是 一 个 二 维 数 组 ， 也 称 为 矩阵 ; 而 y 是 一 个 一 维 数组 ， 或 者 说 是 一 个 向 量 。 


接 下 来 ， 我 们 使 用 train_test_split 函数 将 酒 的 数据 集中 的 数据 分 为 训练 数据 集 和 测试 
数据 集 。 在 Jupyter Notebook 中 输入 代码 如 下 : 
# 导 入 数据 集 拆 分 工具 


from sklearn.model selection import train test split 

# 将 数据 集 拆 分 为 训练 数据 集 和 测试 数据 集 

X Crain, К тез, у стази, у ез: = Erain тез. ар|зац 

wine datasetl "дата" |, wine datasetl target |, random зёаёе=0) 


此 时 ， 我 们 已 经 对 酒 数据 集 完成 了 拆 分 。 在 上 述 代 码 中 ， 我 们 看 到 了 一 个 参数 称 为 
random_state, 并且 我 们 将 它 指定 为 0。 这 是 因为 train_test_split 函数 会 生成 一 个 伪 随 机 数 ， 
并 根据 这 个 伪 随 机 数 对 数据 集 进行 拆 分 。 而 我 们 有 时 候 需 要 在 一 个 项 目 中 ， 让 多 次 生成 
的 伪 随 机 数 相 同 ， 方 法 就 是 通过 固定 random_state 参数 的 数值 ， 相 同 的 random_state 参 
数 会 一 直 生 成 同样 的 伪 随 机 数 ， 但 当 这 个 值 我 们 设 为 0， 或 者 保持 缺 省 的 时 候 ， 则 每 次 
生成 的 伪 随 机 数 均 不 同 。 

下 面 我 们 看 一 看 train_test_split 函数 拆 分 后 的 数据 集 大 概 是 什么 情况 ， 在 Jupyter 
Notebook 中 输入 代码 如 下 : 


printt" An ) 
print (' 代 码 运 行 结果 : 

ргіп+ ( ER 

4] 印 训练 数据 集中 特征 向 量 的 形态 
print( X train shape:{} -format(X ігаіп.зһаре)) 
# 打 印 测试 数据 集中 的 特征 向 量 的 形态 
ргіпі('Х test зһаре: { }'.Ғогтаі (Х Lesc shapeh 

# 打 印 训练 数据 集中 目标 的 形态 
print('y train shape:{}".format(y train.shape)) 
# 打 印 测试 数据 集中 目标 的 形态 
ргіпі('у test зһаре: ||" .Еогшас (у безі .зһаре)) 
print ("'\n==============================" ) 
ргіпі ( "\п\п\п') 


运行 代码 ， 得 到 结果 如 图 3-19 所 示 。 
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图 3-19 经 过 拆 分 的 训练 集 与 测试 集 的 数据 形态 


【 结果 分 析 】 此 刻 我 们 可 以 看 到 在 训练 数据 集中 ， 样 本 X 数量 和 其 对 应 的 标签 у 数 
量 均 为 133 个 ， 约 占 样 本 总 量 的 74.7%， 而 测试 数据 集中 的 样本 X 数量 和 标签 у 数量 均 
为 45 个 ， 约 占 样 本 总 数 的 25.39%6。 同 时 ， 不 论 是 在 训练 数据 集中 ， 还 是 在 测试 数据 集中 ， 
特征 变量 都 是 13 个 。 


3.3.3 ”使 用 K 最 近邻 算法 进行 建 模 


在 获得 训练 数据 集 和 测试 数据 集 之 后 ， 就 可 以 机 器 学 习 的 算法 进行 建 模 了 。scikit- 
lean 中 整合 了 众多 的 分 类 算法 ， 究 葛 应 该 使 用 哪 一 种 呢 ? 这 里 选择 了 К 最 近邻 算法 ， 
为 我 们 在 接 下 来 的 一 章 当 中 会 详细 介绍 К 最 近邻 算法 ， 所 以 提前 给 读者 们 展示 一 下 它 的 
用 法 。 

К 最 近邻 算法 根据 训练 数据 集 进行 建 模 ， 在 训练 数据 集中 寻找 和 新 输入 的 数据 最 近 
的 数据 点 ， 然 后 把 这 个 数据 点 的 标签 分 配给 新 的 数据 点 ， 以 此 对 新 的 样本 进行 分 类 。 现 


在 我 们 在 Jupyter Notebook 中 输入 代码 如 下 : 
# 导 入 KNN 分 类 模型 


from sklearn.neighbors import KNeighborsClassifier 
# 指 定 模 型 的 n пе ighbors 参 数值 为 1 


knn = KNeighborsClassifier (п neighbors = 1) 


到 这 里 读者 可 能 会 发 现 ， 我 们 给 KNeighborsClassifier 指定 了 一 个 参数 ，n_neighbors= 
1。 正 如 我 们 在 前 文中 所 说 ， 在 scikit-learn 中 ， 机 器 学 习 模 块 都 是 在 其 固定 的 类 中 运行 的 ， 
而 K 最 近邻 分 类 算法 是 在 neighbors 模块 中 的 KNeighborsClassifier 类 中 运行 。 而 我 们 从 
一 个 类 中 创建 对 象 的 时 候 , 就 需要 给 模型 指定 一 个 参数 ,对 于 KNeighborsClassifier 类 来 说 ， 
最 关键 的 参数 就 是 近邻 的 数量 , 也 就 是 n_neighbors。 而 knn 则 是 我 们 在 KNeighborsClassifier 
类 中 创建 的 一 个 对 象 。 

接 下 来 我 们 要 使 用 这 个 叫 作 кпп 的 对 象 中 称 为 “ 拟 合 (ft) ”的 方法 来 进行 建 模 ， 
建 模 的 依据 就 是 训练 数据 集中 的 样本 数据 X_train 和 其 对 应 的 标签 y_train， 所 以 我 们 输入 
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代码 如 下 : 


print ( "\п\п\п') 


# 用 模型 对 数据 进行 拟 合 

Кпо.БЕ (Х train, у train) 

print (knn) 

print ("'\n==============================") 
ргіпі ( "\п\п\п') 

Кпп.ћё (Х train, у train) 


运行 上 述 代 码 ， 可 得 到 结果 如 图 3-20 所 示 。 
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В 3-20 ”程序 返回 的 模型 参数 


【 结果 分 析 】 从 图 3-20 中 我 们 可 以 看 到 кпп 的 拟 合 方法 把 自身 作为 结果 返回 给 
了 我 们 。 从 结果 中 我 们 能 够 看 到 模型 全 部 的 参数 设 定 ， 当 然 了 ， 除 了 我 们 指定 的 n_ 
neighbors=1 之 外 ， 其 余 参数 都 保持 默认 值 即 可 。 


3.3.4 使 用 模型 对 新 样本 的 分 类 进行 预测 


现在 我 们 可 以 使 用 刚刚 建 好 的 模型 对 新 的 样本 分 类 进行 预测 了 ， 不 过 在 这 之 前 ， 可 
以 先 用 测试 数据 集 对 模型 进行 打分 ， 这 就 是 我 们 创建 测试 数据 集 的 目的 。 测 试 数据 集 并 
不 参与 建 模 ， 但 是 我 们 可 以 用 模型 对 测试 数据 集 进行 分 类 ， 然 后 和 测试 数据 集中 的 样本 
实际 分 类 进行 对 比 ， 看 吻合 度 有 多 高 。 吻 合 度 越 高 ， 模 型 的 得 分 越 高 ， 说 明 模 型 的 预测 
越 准确 ， 满 分 是 1.0。 

下 面 开 始 评分 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 


ргіпі ( "\п\п\п') 
print(' 代 码 运行 结果 : ") 


rint ("==============================\n') 

# 打 印 模型 的 得 分 
princi’ 测试 数据 集 得 分 : {:.2Е}'.Ғогтаі (Кпп.зсоге (Х безі, у Тезг))) 
print ('\n==============================") 


printt” mn 】 
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运行 代码 ， 得 到 评分 如 图 3-21 г. 


图 3-21 模型 在 测试 数据 集中 的 得 分 


【 结果 分 析 】 我 们 看 到 ， 这 个 模型 在 预测 测试 数据 集 的 样本 分 类 上 得 分 并 不 高 ， 只 

有 0.76， 也 就 是 说 ， 模 型 对 于 新 的 样本 数据 做 出 正确 分 类 预测 的 概率 是 76%。 这 个 结果 

确实 差强人意 , 不 过 我 们 只 是 用 来 演示 K 最 近邻 算法 , 所 以 可 以 先 不 用 太 纠结 分 数 的 问题 。 
下 面 假设 我 们 得 到 了 一 瓶 新 的 酒 ， 它 的 特征 变量 值 经 测定 如 表 3-1 所 列 。 


表 3-1 对 新 酒 测定 的 特征 变量 
о мав S 


13) Proline 


现在 我 们 用 建 好 的 模型 对 新 酒 做 出 分 类 预测 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 


import numpy as np 

# 输 入 新 的 数据 点 

X пем = пр.аггау([[13.2,2.77,2.51,18.5,96.6,1.04,2.55,0.57, 
下 

# 使 用 .predict 进 行 预测 

prediction = Кпп.ргеаісі (X пем) 

print ("пул") 

print (' 代 码 运 行 结果 : ") 
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print ("预测 新 红酒 的 分 类 为 : |)" -format (wine datasetl target пашез" | [ргеаісііоп])) 


резвЕ Am 


运行 代码 ， 得 到 结果 如 图 3-22 所 示 。 


MERT Opp: was ] 


аа. есе ан в ев #- в за в" в а #5 а ов а-о ан ва с #2 2“ . 


3-22 ”模型 对 于 新 酒 数据 进行 的 分 类 判断 


【 结果 分 析 】 模 型 把 新 酒 的 分 类 预测 为 class _ 2， 虽然 准确 率 只 有 76%， 但 对 于 我 们 
的 第 一 个 机 器 学 习 的 实战 项 目 来 说 ， 还 是 相当 不 错 的 。 


3.4 ОМА 


在 本 章 中 ， 我 们 介绍 了 KK 最 近邻 算法 的 原理 和 它 的 使 用 方法 ， 包 括 К 最 近邻 分 类 和 
K 最 近邻 回归 , ЕНН K 最 近邻 算法 帮助 小 C 对 酒 的 分 类 进行 了 分 析 。 不 过 我 们 也 看 到 ， 
对 于 这 个 13 维 的 数据 集 来 说 ，K 最 近邻 算法 的 表现 ， 并 不 能 用 优异 来 形容 。 这 也 确实 是 
K 最 近邻 算法 的 一 大 软肋 。 

K 最 近邻 算法 可 以 说 是 一 个 非常 经 典 而 且 原 理 十 分 容易 理解 的 算法 ， 作 为 第 一 个 算 
法 来 进行 学 习 是 可 以 帮助 大 家 在 未 来 能 够 更 好 地 理解 其 他 的 算法 模型 。 不 过 开 最 近邻 算 
法 在 实际 使 用 当中 会 有 很 多 问题 ， 例 如 它 需 要 对 数据 集 认 真 地 进行 预 处 理 、 对 规模 超大 
的 数据 集 拟 合 的 时 间 较 长 、 对 融 维 数据 集 拟 合 欠 佳 ， 以 及 对 于 黎 玖 数据 集束 手 无 策 等 。 
所 以 在 当前 的 各 种 常见 的 应 用 场景 中 ，K 最 近邻 算法 的 使 用 并 不 多 见 。 

接 下 来 ， 我 们 会 开始 学 习 同 样 经 典 ， 而 且 在 高 维 数据 集中 表现 民 好 的 算法 一 一 广义 
线性 模型 。 


和 和音 广义 线性 看 型 


“Р” руз 


别 看 小 C 对 女 朋 友 体 贴 得 无 微 不 至 , 但 朋友 们 都 知道 他 其 实 是 一 个 “ 直 男 ”, 说 话 直 ， 
做 事 直 ， 连 最 常用 的 算法 都 很 “ 直 ” 一 一 也 就 是 我 们 在 这 一 章 要 介绍 的 线性 模型 。 

线性 模型 是 一 类 广泛 应 用 于 机 器 学 习 领 域 的 预测 模型 ， 在 过 去 的 几 十 年 里 有 众多 学 
者 都 对 其 进行 了 深入 的 研究 。 线 性 模型 是 使 用 输入 数据 集 的 特征 的 线性 函数 进行 建 模 ， 
并 对 结果 进行 预测 的 方法 。 在 这 一 章 中 ， 我们 会 介绍 几 种 常见 的 线性 模型 。 

本 章 主要 涉及 的 知识 点 有 : 

3 线性 模型 的 基本 概念 

э 线性 回归 模型 

э 岭 回归 模型 

э 套 索 回归 模型 

э 二 元 分 类 器 中 的 逻辑 回归 和 线性 SVC 模 型 
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4.1 线性 模型 的 基本 概念 


线性 模型 原本 是 一 个 统计 学 中 的 术语 ， 近 年 来 越 来 越 多 地 应 用 在 机 器 学 习 领 域 。 实 
际 上 线性 模型 并 不 是 特 指 某 一 个 模型 ， 而 是 一 类 模型 。 在 机 器 学 习 领 域 ， 常 用 的 线性 模 
型 包括 线性 回归 、 岭 回归 、 套 索 回 归 、 人 逻辑 回归 和 线性 SVC 等 。 下 面 我 们 先 来 研究 一 下 
线性 模型 的 公式 及 特点 。 


411 线性 模型 的 一 般 公式 


在 回归 分 析 当 中 ， 线 性 模型 的 一 般 预 测 公式 如 下 : 
p= 0 • AO + ИП • Пн + wip] хо + b 
式 中 ;x[0]，xX[1]，…， xfp] 为 数据 集中 特征 变量 的 数量 (这 个 公式 表示 数据 集中 的 数据 
点 一 共有 p 个 特征 ) ; w 和 为 模型 的 参数 ; 了 为 模型 对 于 数据 结果 的 预测 值 。 对 于 只 有 
一 个 特征 变量 的 数据 集 ， 公 式 可 以 简化 为 
p=w0] • х0] + b 

是 不 是 觉得 这 个 公式 看 上 去 像 是 一 条 直线 的 方程 的 解析 式 ? ин, мо 是 直线 的 斜 
率 ，0 是 y 轴 偏 移 量 ， 也 就 是 截 距 。 如 果 数 据 的 特征 值 增加 的 话 ， 每 个 w 值 就 会 对 应 每 
个 特征 直线 的 斜率 。 如 果 换 种 方式 来 理解 的 话 ， 那 么 模型 给 出 的 预测 可 以 看 作 输 入 特征 
的 加 权 和 ， 而 w 参 数 就 代表 了 每 个 特征 的 权重 ， 当 然 ，w 也 可 以 是 负数 。 


ЕЭ) УМЕ “у һа”, RE y 的 估计 值 。 


假设 我 们 有 一 条 直线 ， 其 方程 是 y= 0.5x+3， 我 们 可 以 使 用 Jupyter Notebook 将 它 画 
出 来 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 


import numpy аз пр 

імпрогі шпагр|то:11Ь.рур|оЕ аз рі 

# 令 x 为 -5 到 5 之 间 ， 元 素数 为 100 的 等 差 数 列 
х = пр.1іпзрасе (-5, 5,100) 

# 输 入 直线 方程 

Y= па t J 

plt.plot (х,у,с- "огапае") 

# 图 题 设 为 "Straight Line" 
plt.title('Straigbt Lane | 
plt.show () 


运行 代码 ， 我 们 可 以 得 到 如 图 4-1 所 示 的 结 末 。 
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Stralght Line 
5 
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图 4-1 y=0.5x+3 的 直线 


【 结果 分 析 】 图 4-1 中 的 直线 ， 便 是 直线 方程 了 = 0.5x+3 的 图 像 ， 而 线性 模型 正 是 通 
过 训练 数据 集 确定 自身 的 系数 (斜率 ) 和 截 距 的 。 
下 面 我 们 来 看 一 下 线性 模型 的 工作 原理 。 


412 ”线性 模型 的 图 形 表示 


大 家 肯定 还 记得 ， 我 们 在 初中 数学 〈 也 可 能 是 小 学 数学 ) 中 学 过 ， 两 个 点 可 以 确定 
一 条 直线 。 假 设 有 两 个 点 ， 它 们 的 坐标 是 (1，3) 和 《〈4，5) ， 那 么 我 们 可 以 画 一 条 直 
线 来 穿 过 这 两 个 点 ， 并 且 计 算出 这 条 直线 的 方程 。 下 面 我 们 在 Jupyter Notebook 中 输入 代 


个 如 下 : 
# 导 入 线性 回归 模型 


from sklearn.linear model import LinearRegression 
# 输 入 两 个 点 的 横 坐 标 

IE 

# 输 入 两 个 点 的 纵 坐 标 


у = [3,5] 

# 用 线性 模型 拟 合 这 个 两 个 点 

lr = Гтпеагведгезз1оп () .fit (Хх, у) 
# 男 出 两 个 点 和 直线 的 图 形 

2 = пр.1іпзрасе (0,5,20) 
plt.scatter (X, у, з=80) 
рі.р1о+ (2, 1Іг.ргеаісі+ (2. гезһаре (-1,1)) ,с-"К") 
# 设 定 图 题 为 Straight Line 
plit-titile('Straight Line’) 

# 将 图 片 显 示 出 来 

plt.show () 
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运行 代码 ， 将 会 得 到 如 图 4-2 所 示 的 结果 。 


Stralght Line 


0 1 2 3 4 5 
图 4-2 穿 过 点 (1，3) 和 (4，5) 的 直线 


【 结果 分 析 】 图 4-2 表示 的 就 是 穿 过 上 述 两 个 数据 点 的 直线 ， 现 在 我 们 可 以 确定 这 
条 直线 的 方程 。 


在 Jupyter Notebook аад 
print ('\n\n\n 直 线 方 程 为 . 


print ( ' ==========\п') 

# 打 印 直线 方程 

ргіпі('у = EeeeEEE )) 
print ('\п==========') 


ретп (поло "] 


运行 代码 ， 将 会 得 到 如 图 4-3 所 示 的 结果 。 


43 程序 计算 出 的 直线 方程 


【 结果 分 析 】 通 过 程序 的 计算 ， 我 们 很 容易 就 可 以 得 到 这 条 直线 的 方程 为 
у= 0.667 x + 2.333 
这 是 数据 中 只 有 2 个 点 的 情况 , 那 如 果 是 3 个 点 会 是 怎样 的 情况 呢 ? 我 们 来 实验 一 下 ， 


С 046 2 


第 4 章 广义 线性 模型 一 “耿直 ”的 算法 模 站 


假设 现在 有 第 3 个 点 ， 坐 标 是 (3，3) , 我们 把 这 个 点 添加 进去 ， 看 会 得 到 怎样 的 结果 。 
输入 代码 如 下 : 


# 输 入 3 个 点 的 横 坐 标 

х = ТЕЕ га, 211 

# 输 入 3 个 点 的 纵 坐 标 

у = [3,5,3] 

# 用 线性 模型 拟 合 这 3 个 点 

lr = LinearRegression() .fit (х,у) 
# 画 出 2 个 点 和 直线 的 图 形 

z = пр.1іпзрасе (0,5,20) 
plt.scatter (Х, у, 3=80) 
plt-plot (2, 1Іг.ргеаісії (2. гезһаре (-1,1)),с='К') 
# 设 定 图 题 为 Straight Line 

plit- tatlel Straight LINE) 


# 将 图 片 显示 出 来 
plt.show () 
运行 代码 ， 会 得 到 如 图 4-4 所 示 的 结果 。 
Straoght Line 
5.0 Ф 
4.5 
4.0 
3.5 
3.0 е е 
2.5 
2.0 
0 1 2 3 4 5 


4-4 对 3 个 点 进行 拟 合 的 线性 模型 


【 结果 分 析 】 从 图 4-4 中 我 们 可 以 看 到 ， 这 次 直线 没有 和 穿 过 任何 一 个 点 ， 而 是 位 于 
一 个 和 3 个 点 的 距离 相 加 最 小 的 位 置 。 


下 面 我 们 可 以 在 计算 出 这 条 直线 的 方程 ， 输 入 代码 如 下 : 
print ('\n\n\n 新 的 直线 方程 为 :') 


print ('==========\n') 

# 打 印 直线 方程 

和 下 本 EL TtereoepE )) 
print ('"\п==========') 


ртіп { "\п\оҳп") 
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运行 代码 ， 将 会 得 到 结果 如 图 4-5 所 示 。 
【 结果 分 析 】 从 图 4-5 中 我 们 可 以 看 到 ， 新 pp 

的 直线 方程 和 只 有 2 个 数据 点 的 直线 方程 已 经 发 
生 了 变化 。 线 性 模型 让 目 己 距离 每 个 数据 点 的 加 
和 为 最 小 值 。 这 也 就 是 线性 回归 模型 的 原理 。 

当然 ， 在 实际 应 用 中 ， 数 据 量 要 远 远 大 于 2 45 对 3 个 点 进行 拟 合 的 线性 模型 方程 
个 或 是 3 个 ， 下 面 我 们 就 用 数量 更 多 的 数据 来 进行 实验 。 

现在 我 们 以 scikit-klearn 生成 的 make_regression 数据 集 为 例 ， 用 Python 语句 绘制 一 
条 线性 模型 的 预测 线 ， 更 加 清晰 地 反映 出 线性 模型 的 原理 。 在 jupyter notebook 中 输入 代 
юш Е: 


from sklearn.datasets import make гедгеззіоп 

# 生 成 用 于 回归 分 析 的 数据 集 

X, у = make regression(n зашпр!ез-50, п features=]1, п informative=1, 
поізе=50, гапаот зтате-1) 

# 使 用 线性 模型 对 数据 进行 拟 合 

гед = LinearRegression() 

reg .fit (X, y) 

#z 是 我 们 生成 的 等 差 数 列 ， 用 来 画 出 线性 模型 的 图 形 

2 = пр.1іпзрасе (-3,3,200) . гезһаре (-1,1) 

рі. зсаіѓег (X, у, с='Ь',ѕ=60) 

рії.р1о+ї (2, гед.ргеаісії (2), с='К') 

plt.title('Linear Кедгеззіоп') 


按 下 shift+ 回 车 键 后 ， 会 得 到 结果 如 图 4-6 所 示 的 结果 。 


Linear Regression 


-3 -2 =] 0 1 2 3 
4-6 线性 回归 模型 的 预测 线 
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【 结果 分 析 】 从 图 4-1 中 我 们 可 以 看 出 ， 黑 色 直 线 是 线性 回归 模型 在 make_ 
regression 数据 集中 生成 的 预测 线 。 接 下 来 我 们 来 看 一 下 这 条 直线 所 对 应 的 斜率 和 截 距 。 

i dln 

i И 


Print(' 直 线 的 系数 是 : {:.2f}'.format (гед. coef [0])) 
print (' 直线 的 截 距 是 : {:.2f}'.format (гед. intercept })) 


Printi "\п\п\п') 


运行 代码 ， 会 得 到 结果 如 图 4-7 所 示 。 


| Bb 
| .mm 


47 直线 的 系数 和 截 距 


【 结果 分 析 】 从 图 4-7 中 我 们 可 以 看 到 ， 在 我 们 手工 生成 的 数据 集中 ， 线 性 模型 的 
方程 为 
у= 79.52 х+10.92 
而 这 条 直线 距离 50 个 数据 点 的 距离 之 和 ， 是 最 小 的 。 这 便 是 一 般 线性 模型 的 原理 。 


细心 的 读者 可 能 注意 到 coef_ 和 intercept_ 这 两 个 属性 非常 奇怪 ， 它 们 都 是 以 下 划 
线 _ 结尾。 这 是 sciki-learn 的 一 个 特点 ， 它 总 是 用 下 划 线 作为 来 自 训 练 数据 集 的 属性 的 
结尾 ， 以 便 将 它们 与 由 用 户 设置 的 参数 区 分 开 。 


413 ”线性 模型 的 特点 


在 上 面 的 内 容 中 ， 我 们 使 用 的 都 是 特征 数 只 有 1 个 的 数据 集 。 用 于 回归 分 析 的 线性 
模型 在 特征 数 为 1 的 数据 集中 ， 是 使 用 一 条 直线 来 进行 预测 分 析 ， 而 当 数 据 的 特征 数量 
达到 2 个 时 则 是 一 个 平面 , 而 对 于 更 多 特征 数量 的 数据 集 来 说 , 则 是 一 个 高 维度 的 超 平面 。 

如 果 和 K 最 近邻 模型 生成 的 预测 进行 比较 的 话 ， 你 会 发 现 线性 模型 的 预测 方法 是 非 
利 有 局 限 性 的 一 一 很 多 数据 都 没有 体现 在 这 条 直线 上 。 从 茶 种 意义 上 说 ,这 是 一 个 问题 。 


N 
o A 


ГА 
[O 
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因为 使 用 线性 模型 的 前 提 条 件 ， 是 假设 目标 了 是 数据 特征 的 线性 组 合 。 但 需要 特别 注意 
的 是 , 使 用 一 维 数据 集 进行 验证 会 让 我 们 有 一 点 偏颇 , 而 对 于 特征 变量 较 多 的 数据 集 来 说 ， 
线性 模型 就 显得 十 分 强大 。 尤 其 是 ， 当 训练 数据 集 的 特征 变量 大 于 数据 点 的 数量 的 时 候 ， 
线性 模型 可 以 对 训练 数据 做 出 近乎 完美 的 预测 。 

用 于 回归 分 析 的 线性 模型 也 有 很 多 种 类 。 这 些 模型 之 间 的 区 别 在 于 如 何 从 训练 数据 
中 确定 模型 参数 wA bp， 以 及 如 何 控制 模型 复杂 度 。 下 面 的 小 节 我 们 来 看 看 儿 种 回归 分 
析 中 最 流行 的 线性 模型 。 


4.2 最 基本 的 线性 模型 一 一 线性 回归 


线性 回归 ， 也 称 为 普通 最 小 二 乘法 COLS) ， 是 在 回归 分 析 中 最 简单 也 是 最 经 典 的 
线性 模型 。 本 节 中 我 们 将 介绍 线性 回归 的 原理 和 在 实践 中 的 表现 。 


4.2.1 线性 回归 的 基本 原理 


线性 回归 的 原理 是 ， 找 到 当 训 练 数据 集中 了 的 预测 值 和 其 真实 值 的 平方 差 最 小 的 时 
候 ， 所 对 应 的 w 值 和 4b 值 。 线 性 回归 没有 可 供用 户 调节 的 参数 ， 这 是 它 的 优势 ， 但 也 代 
表 我 们 无 法 控制 模型 的 复杂 性 。 接 下 来 我 们 继续 使 用 make_regression 函数 ， 生 成 一 个 
样本 数量 为 100， 特 征 数量 为 2 的 数据 集 ， 并 且 用 train_test_split 函数 将 数据 集 分 割 成 
训练 数据 集 和 测试 数据 集 ， 再 用 线性 回归 模型 计算 出 w 值 和 4b 值 。 现 在 我 们 在 jupyter 
notebook 中 输入 代码 如 下 : 

# 导 入 数据 集 拆 分 工具 


from sklearn.model selection import train test split 

from sklearn.linear model import LinearRegression 

Х, у = паке гедгеззіоп(п затр1ез=100, п features 2n informative 2rrandom,. 
state=38) 

X Croin, Х Тез, у Егатп, у безі = Сгатп Cest зр1іії (Х, у, random зёаёсе=8) 

lr = ІіпеагКедгеззіоп () .fit(X train, у train) 


在 4.1 节 我 们 已 经 学 过 ， 方 程 的 斜率 w， 也 被 称 为 权重 或 者 系数 ， 被 存储 在 coef 属 
HFR, MERE b 被 存储 在 intercept_ 属性 中 ， 我 们 可 以 通过 “print” 函 数 将 它们 打印 出 来 


看 一 下 : 
print ('\n\n\n 代 码 运 行 结果 : ") 


Printl lrscoef : |) ".Гогшас (1г.соег [:])) 
ргіпі ("1г.1п егсер. : {}".Ғогтаі (1г.іпіегсері )) 
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ргіпі ( "\п\п\п') 


按 下 shift+ 回 车 键 后 ， 可 以 看 到 结果 如 图 4-8 Рог. 


гре ге В 


речне: | hi Fitili 
ba. La р 1 .4 


48 ”模型 的 系数 和 截 距 


【 结果 分 析 】intercept_ 属性 一 直 是 一 个 浮 点 数 ， 而 coef_ 属性 则 是 一 个 NumPy 数组 ， 
其 中 每 个 特征 对 应 数据 中 的 一 个 数值 ， 由 于 我 们 这 次 使 用 make_regression 生成 的 数据 集 
中 数据 点 有 2 个 特征 ， 所 以 lr.coef_ 是 一 个 二 维 数组 。 也 就 是 说 ， 在 本 例 中 线性 回归 模型 
的 方程 可 以 表示 为 
y= 70.385 9хХ + 7.4321хХ,-1.42е“ 


4.2.2 线性 回归 的 性 能 表现 


下 面 我 们 来 看 看 线性 回归 在 make_regression 生成 的 训练 数据 集 和 测试 数据 集中 的 性 
能 如 何 ， 在 jupyter notebook 中 输入 如 下 代码 : 


print ('\n\n\n 代 码 运 行 结 果 : ") 

print (' ==========\п') 

print ("训练 数据 集 得 分 : {:.2f}".format (1г.зсоге(Х train, у train) ) ) 
print ("测试 数据 集 得 分 : {:.2f}".format (1г.зсоге(Х test, у test))) 
print ('\п==========') 

ргіпі ( "\п\п\п') 


按 下 ѕһ 回 车 键 ， 就 会 得 到 如 图 4-9 所 示 的 结果 。 


"мас да 


загаша- 1 4а 


Зо РЕБЕ 


图 4-9 线性 回归 模型 在 训练 集 和 测试 集中 的 得 分 
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【 结果 分 析 】 这 是 一 个 令 人 振奋 的 分 数 ， 模 型 在 训练 集 和 测试 中 分 别 取 得 了 满分 ， 
也 就 是 1.00 分 的 好 成 绩 ! 不 过 不 要 高 兴 太 早 ， 这 是 因为 我 们 这 次 没有 回 数 据 集 添 加 
noise， 所 以 分 数 上 自然 会 打 到 满分 了 。 不 过 真实 世界 的 数据 集 可 就 没有 那么 简单 了 。 

真实 世界 的 数据 集 ， 往 往 特 征 要 多 得 多 ， 而 且 noise 也 不 少 ， 这 会 给 线性 模型 带 来 不 
少 的 困扰 ， 下 面 我 们 就 来 生成 一 个 来 目 真实 世界 的 数据 集 一 一 糖尿 病情 数据 集 ， 再 来 测 
试 一 下 。 在 jupyter notebook 中 输入 代码 如 下 : 


from sklearn.datasets import load diabetes 

# 载 入 糖尿 病情 数据 集 

X, у = load diabetes () .data, load diabetes() .target 
# 将 数据 集 拆 分 成 训练 集 和 测试 集 


X train, X test, у train, у test = train test split(X, у, random state=8) 


使 用 线性 回归 模型 进行 拟 合 


lr = LinearRegression() .fit(X train, у train) 


然后 我 们 来 看 下 这 个 模型 针对 训练 数据 集 和 测试 数据 集 的 得 分 如 何 ， 在 jupyter 
notebook 中 输入 代码 如 下 : 
print (， \n\n\n 代 码 运 行 结果 : 


ргіпі+ (' ваа {: .2f}".format (1г.зсоге (Х train, у Тгатп))) 
print (" 测 试 数据 集 得 分 ， {: .2f}".format (1г.зсоге(Х test, у test) ) ) 


print ( "\п\п\п') 


按 下 shift+ 回 车 键 之 后 ， 得 到 结果 如 图 4-10 所 示 。 


ра аа 
| Se 


LNNT Ñ= aii 
МГЕ РИГЕ 


enea а а-а #- а а 


4-10 线性 回归 模型 在 糖尿 病 数 据 集 中 的 得 分 


【 结果 分 析 】 对 比 这 两 个 分 数 ， 你 会 发 现 这 次 模型 的 分 数 降低 了 很 多 ， 模 型 在 训练 
数据 集中 分 数 只 有 0.53， 而 测试 数据 集 的 得 分 就 只 有 0.46 Г. 

由 于 真实 世界 的 数据 复杂 程度 要 比 我 们 手工 合成 的 数据 高 得 多 ， 使 得 线性 回归 的 表 
现 大 幅 下 降 了 。 此 外 ， 由 于 线性 回归 目 喘 的 特点 ， 非 常 容易 出 现 过 拟 合 的 现象 。 在 训练 
集 的 得 分 和 测试 集 的 得 分 之 间 存 在 的 巨大 差异 是 出 现 过 拟 合 问题 的 一 个 明确 信号 , 因此， 
我 们 应 该 找到 一 个 模型 ， 使 我 们 能 够 控制 模型 的 复杂 度 。 标 准 线性 回归 最 第 用 的 蔡 代 模 
型 之 一 是 岭 回 归 ， 我 们 将 在 下 一 小 节 中 进行 探讨 。 
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4.3 使 用 L2 正则 化 的 线性 模型 一 一 岭 回 归 


岭 回归 也 是 回归 分 析 中 常用 的 线性 模型 ， 它 实际 上 是 一 种 改良 的 最 小 二 乘法 。 本 市 
中 我 们 将 介绍 岭 回归 的 原理 及 在 实践 中 的 性 能 表现 。 


4.3.1 上 岭 回 归 的 原理 


从 实用 的 角度 来 说 , 岭 回 归 实 际 上 是 一 种 能 够 避免 过 拟 合 的 线性 模型 。 在 岭 回 归 中 ， 
模型 会 保留 所 有 的 特征 变量 ， 但 是 会 减 小 特征 变量 的 系数 值 ， 让 特征 变量 对 预测 结果 的 
影响 变 小 ， 在 岭 回 归 中 是 通过 改变 其 alpha 参数 来 控制 减 小 特征 变量 系数 的 程度 。 而 这 
种 通过 保留 全 部 特征 变量 ， 只 是 降低 特征 变量 的 系数 值 来 避免 过 拟 合 的 方法 ， 我 们 称 之 
为 L2 正则 化 。 

岭 回 归 在 scikit-learn 中 是 通过 linear_model.Ridge 函数 来 调用 的 ， 下 面 我 们 继续 使 用 
波士顿 房价 的 扩展 数据 集 为 例 ， 看 看 岭 回 归 的 表现 如 何 。 现 在 在 jupyter notebook 里 输入 
代码 如 下 : 

# 导 入 岭 回 归 


from sklearn.linear model import Ridge 
# 使 用 岭 回 归 对 数据 进行 拟 合 

rigde = Ridge() .ft(X train, y train) 
print ('\n\n\n КА АВ. ') 


PEINE (" 岭 回 归 的 训练 数据 集 得 分 : {:.2#}".Ғогтаї (гіаде.зсоге (Х Erain, у Сгатп))) 
print (" 岭 回 归 的 测试 数据 集 得 分 : {:.2#}".Ғогтаі (гіаде.зсоге (Х test, у test}}) 


ргіпі ( "\п\п\п') 


按 下 shift+ 回 车 键 ， 将 会 得 到 结果 如 图 4-11 所 示 。 


是 图? 直人 孙 疝 丁 二 辣 一 ， 利 本 | 


ва вглиаЯ9- #1: 


图 4-11 岭 回归 的 模型 评分 


【 结果 分 析 】 现 在 我 们 看 到 ， 使 用 岭 回 归 后 ， 训 练 数 据 集 的 得 分 比 线性 回归 要 稍微 
低 一 些 ， 而 测试 数据 集 的 得 分 却 出 人 意料 地 和 训练 集 的 得 分 一 致 ， 这 和 我 们 的 预期 基本 
是 一 臻 的。 在 线性 回归 中 ， 我 们 的 模型 出 现 了 轻微 的 过 拟 合 现象 。 但 由 于 岭 回 归 是 一 个 
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相对 受 限 的 模型 , 所 以 我 们 发 生 过 拟 合 的 可 能 性 大 大 降低 了 。 可 以 说 , 复杂 度 越 低 的 模型 ， 
在 训练 数据 集 上 的 表现 越 状 ， 但 是 其 泛 化 的 能 力 会 更 好 。 如 果 我 们 更 在 意 模 型 在 泛 化 方 
面 的 表现 ， 那 么 我 们 就 应 该 选择 岭 回归 模型 ， 而 不 是 线性 回归 模型 。 


的 一 


4.3.2 ”上 岭 回 归 的 参数 调节 


岭 回归 是 在 模型 的 简单 性 (使 系数 趋 近 于 零 ) 和 它 在 训练 集 上 的 性 能 之 间 取 得 平衡 
种 模型 。 用 户 可 以 使 用 alpha 参数 控制 模型 更 加 简单 性 还 是 在 训练 集 上 的 性 能 更 高 。 


在 上 一 个 示例 中 ， 我 们 使 用 默认 参数 alpha = 1. 


alpha 的 取 值 并 没有 一 定之 规 。alpha 的 最 佳 设 置 取决 于 我 们 使 用 的 特定 数据 集 。 
增加 alpha 值 会 降低 特征 变量 的 系数 ， 使 其 趋 于 零 ， 从 而 降低 在 训练 集 的 性 能 ， 但 更 有 
助 于 泛 化 。 


下 面 我 们 再 看 一 个 例子 ， 仍 然 使 用 糖尿 病 数 据 集 ， 但 是 把 正则 项 参数 alpha 设置 为 


， 在 jupyter notebook 中 输入 如 下 代码 : 


# 修 改 alpha 参 数 为 10 
г1аде10 = Ridge (alpha=10) .fit (X train, y train) 


print ("| 练 数据 集 得 分 : {:-2f}".format (гіаде10.зсоге (Х train, у Сгатп))) 
print ("测试 数据 集 得 分 : {:.2Е}".Ғогтаі (гіаде10.зсоге (Х test; у іезі))) 
print ('"\п==========') 

Printt" n\n\n’) 


按 下 shift+ 回 车 键 ， 得 到 结果 如 图 4-12 所 示 。 


Апиан, а. 
ri èii 


4-12 alpha 值 等 于 10 时 模型 的 得 分 
【 结果 分 析 提高 了 alpha 值 之 后 ,我 们 看 到 模型 的 得 分 大 幅 降 低 了 ,然而 有 意思 的 是 ， 


模型 在 测试 集 的 得 分 超过 了 在 训练 集 的 得 分 。 这 说 明 ， 如 果 我 们 的 模型 出 现 了 过 拟 合 的 
现象 ， 那 么 我 们 可 以 提高 alpha 值 来 降低 过 拟 合 的 程度 。 


同时 ， 降 低 alpha 值 会 让 系数 的 限制 变 得 不 那么 严格 ， 如 果 我 们 用 一 个 非常 小 的 
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alpha 值 ， 那 么 系统 的 限制 几乎 可 以 忽略 不 计 ， 得 到 的 结果 也 会 非常 接近 线性 回归 。 比 如 
下 面 这 个 例子 : 


在 jupyter notebook 中 输入 : 


# 修 改 alpha 值 为 0 .1 

ridge01 = Ridge (alpha=0.1) .fit (X train, у train) 

print ('\n\n\n 代 码 运 行 结果 : ') 

print ('==========\n') 

print ("| 练 数 据 得 分 : {:.2#Е}". Ғогтаі (гіаде01.зсоге (Х train, у Ега1п))) 
print ("测试 数据 得 分 : {:.2#)}". format (гіаде01.зсоге (Х езі, у Сезг))) 
print ('\п==========') 

AD 


代码 运行 的 结果 如 图 4-13 所 示 。 


ПОТ а ИТ. 


ERRE #.а? 


4-13 alpha 值 等 于 0.1 时 的 模型 得 分 


【 结果 分 析 】 现 在 我 们 看 到 ， 把 参数 alpha 设置 为 0.1 似乎 让 模型 的 在 训练 集 的 得 

分 比 线 性 回归 模型 略 低 ， 但 在 测试 集 的 得 分 却 有 轻微 的 提升 。 我 们 还 可 以 尝试 不 断 降低 
alpha 值 来 进一步 改善 模型 的 泛 化 表现 。 现 在 需要 记 住 alpha 值 是 如 何 影响 模型 的 复杂 : 
的 。 在 后 面 的 章节 我 们 还 会 具体 讨论 设置 参数 的 方法 。 

为 了 更 清晰 地 看 出 alpha 值 对 于 模型 的 影响 ， 我 们 用 图 像 来 观察 不 同 alpha 值 对 应 
的 模型 的 coef 属性 。 较 高 的 alpha 值 代 表 模 型 的 限制 更 加 严格 ， 所 以 我 们 认为 在 较 高 
的 alpha 值 下 ，coef_ 属性 的 数值 会 更 小 ， 反 之 coef_ 属性 的 数值 更 大 。 下 面 用 jupyter 
notebook 把 图 形 画 出 来 。 

在 jupyter notebook 中 输入 代码 : 


# 绘 制 alpha=1 时 的 模型 系数 

pit.plot (ridge-coaf , "з", label = Ridge а1рһа=1') 
# 绘 制 aljpha=10 时 的 模型 系数 
р1ъ.р1о: (г19де10.сое , 
# 绘 制 alpha=0 .1 时 的 模型 系数 
р1іі.р1Іої (гійде01.соеЁ , "у", label = Ridge а1рһа=0.1") 
# 绘 制 线性 回归 的 系数 作为 对 比 

pIE LpIOE(Ir- -coer On; lapel = T/Ipesr regression’) 
plt.xlabel ("coefficient index") 


"21, label = 'Ridge alpha=10') 
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plt.ylabel ("coefficient magnitude") 
ріё.Һ1Ііпез (0,0, len{lr.coef )) 
plt.legend() 


按 下 shift+ 回 车 键 运行 代码 ，jupyter notebook 会 绘制 一 张 图 像 如 图 4-14 所 示 。 


画 alpha=1 时 的 岭 回归 

а alpha=10 时 的 岭 回归 
alpha=0.1 时 的 岭 回 归 
二 线性 回归 模型 


0 2 


4 6 10 
系数 序号 


4-14 RIF] alpha 值 对 应 岭 回 归 的 参数 大 小 及 线性 回归 参数 对 比 


【 结果 分 析 】 在 图 4-14 中 ， 横 轴 代 表 的 是 coef_ 属性 : x = 0 显示 第 一 个 特征 变量 的 
系数 ，x= 1 显示 的 是 第 二 个 特征 变量 的 系数 ， 依 此 类 推 ， 直 到 x= 10。 纵 轴 显 示 特 征 变 
量 的 系数 量 级 。 从 图 中 我 们 不 难看 出 ， 当 alpha = 10 时 ， 特 征 变量 系数 大 多 在 0 附近 ; 
而 当 alpha = 1 时 ， 上 岭 模型 的 特征 变量 系数 普遍 增 大 了 。 而 当 alpha = 0.1 时 ， 特 征 变量 的 
系数 就 更 大 了 ， 甚 至 大 部 分 与 线性 回归 的 点 重合 了 ， 而 线性 回归 模型 由 于 没有 经 过 任何 
正则 化 处 理 ， 其 所 对 应 的 特征 变量 系数 值 就 会 非常 大 ,， 其 中 有 一 些 都 快 跑 到 图 表 之 外 了 。 

还 有 一 个 能 够 帮助 我 们 更 好 理解 正则 化 对 模型 影响 的 方法 ， 那 就 是 取 一 个 固定 的 
alpha 值 ， 然 后 改变 训练 数据 集 的 数据 量 。 比 如 我 们 在 糖尿 病 数 据 集中 采样 ， 然 后 用 这 
些 采 样 的 子 集 对 线性 回归 模型 和 alpha 值 等 于 1 的 岭 回归 模型 进行 评估 ， 并 用 jupyter 
notebook 进行 绘图 ， 得 到 一 个 随 数据 集 大 小 而 不 断 改 变 的 模型 评分 折线 图 ， 其 中 的 折线 
我 们 也 称 之 为 学 习 曲 线 (learning curves) 。 下 面 我 们 来 初步 画 一 下 两 个 模型 在 糖尿 病 数 
据 集中 的 学 习 曲 线 ， 输 入 代码 如 下 : 


from sklearn.model selection import learning сигуе,КЕо1а 
# 定 义 一 个 绘制 学 习 曲 线 的 函数 
def plot learning curvel(est, X, у): 
# 将 数据 进行 20 次 拆 分 用 来 对 模型 进行 评分 
training зе sizer Lramn scores, езі scores = learning Curvel 
езі, Х, Ytrain sizes=np-linspace(.1, 1, 20), cv=KFold(20,shuffle=True, 
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random зтате-1)) 
estimator пате = езі. class . пате 
line = рії.р1ої (Егатптпа зеі 3126, Erain зсогез.теар (ахіз=1), !--", 
label="training " + estimator пате) 
ріё.р1ої (training зеі зіге, Тез зсогез.шеап (ахіз=1), !-", 
label=— test T + ез шагог патње, с=]іпе [0] -get со1ог()) 
ріё.х1аре1 ("Тгатптпа зеі size') 
р1ё.у1ареї1 (' Score ') 
ріс орли 0. 1.1) 


plot learning curve (Ridge (а1рһа=1), X, у) 


plot learning curve (LinearRegression(), X, у) 
plt.legend(loc=(0, 1.05), псо1=2, fontsize=11) 


运行 代码 ， 会 得 到 如 图 4-15 所 示 的 结果 。 


50 100 150 200 250 300 350 400 
训练 集 大 小 
= 训练 集 岭 回归 ----- 训 练 集 线 性 回归 
一 一 测试 集 岭 回归 一 一 测试 集 线 性 回归 
图 4-15 糖尿 病 数 据 集中 岭 回 归 与 线性 回归 的 学 习 曲 线 


【 结果 分 析 】 上 毫 无 疑问 ， 不 论 是 在 岭 回 归 中 还 是 在 线性 回归 中 ， 训 练 数据 集 的 得 分 


都 比 测试 数据 集 的 得 分 要 高 。 而 由 于 岭 回 归 是 经 过 正则 化 的 模型 ， 因 此 它 在 整个 图 像 中 
训练 数据 集 的 得 分 要 比 线性 回归 的 得 分 低 。 然 而 ， 岭 回归 在 测试 数据 集 的 得 分 与 训练 数 
据 集 的 得 分 差异 就 要 小 一 些 ， 尤 其 是 在 数据 子 集 比较 小 的 情况 下 。 在 数据 量 小 于 50 条 的 
情况 下 ， 线 性 回归 几乎 不 能 让 机 器 学 到 任何 东西 。 随 着 数据 集 的 规模 越 来 越 大 ， 两 个 模 
型 的 表现 也 越 来 越 好 ， 最 后 线性 回归 的 得 分 赶 上 了 岭 回归 的 得 分 。 不 难看 出 ， 如 果 有 足 
够 多 的 数据 ， 那么 正则 化 就 显得 不 是 那么 重要 了 , 岭 回 归 和 线性 回归 的 表现 也 相差 无 几 。 


呈 革 读者 可 能 会 发 现 ， 随 着 数据 量 的 增加 ， 线 性 回归 在 训练 数据 集 的 得 分 是 下 降 的 ， 这 
说 明 随 着 数据 增加 ， 线 性 回归 模型 就 越 不 容易 产生 过 拟 合 的 现象 ， 或 者 说 越 难 记 住 这 些 
数据 。 


4.4 使 用 L1 正则 化 的 线性 模型 一 一 套 索 回归 


除了 岭 回 归 之 外 ， 还 有 一 个 对 线性 回归 进行 正则 化 的 模型 ， 即 套 索 回归 〈lasso) 。 
本 节 我 们 重点 探讨 套 索 回归 的 原理 及 其 在 实际 应 用 中 的 表现 。 
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和 上 岭 回 归 一 样 ， 套 索 回 归 也 会 将 系数 限制 在 非常 接近 0 的 范围 内 ， 但 它 进行 限制 的 
方式 稍微 有 一 点 不 同 ， 我 们 称 之 为 Ll 正则 化 。 与 L2 正则 化 不 同 的 是 ，L1 正则 化 会 导致 
在 使 用 套 索 回归 的 时 候 ， 有 一 部 分 特征 的 系数 会 正好 等 于 0。 也 就 是 说 ， 有 一 些 特征 会 
彻 确 被 模型 忽略 掉 ， 这 也 可 以 看 成 是 模型 对 于 特征 进行 目 动 选择 的 一 种 方式 。 把 一 部 分 
系数 变 成 0 有 助 于 让 模型 更 容易 理解 ， 而 且 可 以 突出 体现 模型 中 最 重要 的 那些 特征 。 

让 我 们 再 用 糖尿 病 数 据 集 来 验证 一 下 套 索 回归 , 在 jupyter notebook 中 输入 代码 如 下 : 

# 导 入 套 索 回归 


from sklearn.linear model import Lasso 

# 使 用 套 索 回归 拟 合 数据 

lasso = Lasso() .fit(X train, у train) 

print ('\n\n\n 代 码 运 行 结 果 : ") 

print ('==========\n') 

print (" 套 索 回归 在 训练 数据 集 的 得 分 : {:.2f}".format (1аззо.зсоге (Х train, у train))) 
PLINE (" 套 索 回归 在 测试 数据 集 的 得 分 : {:.2#}".Ғогтаі (1аззо.зсоге (Х test, у test))) 
print (" 套 索 回归 使 用 的 特征 数 : {}".format (np.sum(lasso.coef != 0))) 


代码 运行 的 结果 如 图 4-16 所 示 。 


мръпаязага - 
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图 4-16 套 索 回归 模型 得 分 
【 结果 分 析 j 这 里 我 们 看 到 , 套 索 回归 在 训练 数据 集 和 测试 数据 集 的 得 分 都 相当 糟糕 。 
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这 意味 看 我 们 的 模型 发 生 了 欠 拟 合 的 问题 ， 而 且 你 会 发 现 ， 在 10 个 特征 里 面 ， 套 索 回 归 
只 用 了 3 个 。 与 岭 回归 类 似 ， 套 索 回 归 也 有 一 个 正则 化 参数 alpha， 用 来 控制 特征 变量 系 
数 被 约束 到 0 的 强度 。 
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在 上 面 的 例子 里 ， 我 们 用 了 alpha 的 默认 值 1.0。 为 了 降低 从 拟 合 的 程度 ， 我 们 可 以 
试看 降低 alpha 的 值 。 与 此 同时 ， 我 们 还 需要 增加 最 大 运 代 次 数 (max_iter) 的 默认 设置 。 
让 我 们 来 看 下 面 的 代码 : 


# 增 加 最 大 迭代 次 数 的 默认 设置 

# 否 则 模型 会 提示 我 们 增加 最 大 迭代 次 数 

lasso01 = E пах iter=100000) .ft (X _ train, y train) 

print (' аи 

print ('==========\N 

print ("alpha=0. паии ал. {:.2f}".format (1аззо001.зсоге (Х train, 
у Егатп))) 

print ("а1рһа=0. 1 时 套 索 回归 在 测试 数据 集 的 得 分 : (:.2Е|".Еогшас (1азз0001.зсоге (Х test, 
y_test))) 

print ("а1рһа=0. ddd одаи {}".format (np.sum(lasso00l.coef != 0))) 


print { "\о\п\п") 


运行 代码 ， 得 到 结 采 如 图 4-17 所 示 。 


Оги ИВ А БА" 


ДИЕНИВ -. ваш 
ща рио: 


4-17 alpha 等 于 0.1 时 的 套 索 回归 得 分 


【 结果 分 析 】 从 结果 来 看 ， 降 低 alpha 值 可 以 拟 合 出 更 复杂 的 模型 ， 从 而 在 训练 数 
据 集 和 测试 数据 集 都 能 获得 恨 好 的 表现 。 相 对 岭 回 归 ， 套 索 回 归 的 表现 还 要 稍 好 一 点 ， 
而 且 它 只 用 了 10 个 特征 中 的 7 个 ， 这 一 点 也 会 使 模型 更 容易 被 人 理解 。 

但 是 ， 如 果 我 们 把 alpha 值 设置 得 太 低 ， 就 等 于 把 正则 化 的 效果 去 除了 ， 那 么 模型 
就 可 能 会 像 线性 回归 一 样 ， 出 现 过 拟 合 的 问题 。 比 如 我 们 把 alpha 值 设 为 0.000 1, WA 
运行 下 面 的 代码 : 
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# 修 改 alpha 值 为 0 .0001 
lasso00001 = Lasso (а1рћһа=0.0001, шах iter=100000) .fit (X train, у train) 


print ('\n\n\n 代 码 运 行 结果 : ') 
\n') 
print ("alpha=0 .0001 时 套 索 回归 在 训练 数据 集 的 得 分 : {:.2f}".format ( 


1азз000001.зсоге (Х train, у train))) 

print ("alpha=0 .0001 时 套 索 回归 在 测试 数据 集 的 得 分 : {:.2f}".format ( 
1азз000001.зсоге (Х test, у test))) 

print("alpha=0.0001 时 套 索 回归 使 用 的 特征 数 : 1)". Ғогма+ (пр. зип ( 
1азз000001.соеЕ != 0) ) ) 

print ('\n==========') 

ргіпі ( "\п\п\п') 


代码 运行 的 结果 如 图 4-18 所 示 。 


ai 二 站 有 让 了 商业 о. в. чл 


alph- ани ЕО лги H i ёа 
alpat шаи Е те в 1811 


4-18 alpha 等 于 0.000 1 时 套 索 回归 的 模型 评分 


【 结果 分 析 】 从 结果 中 我 们 看 到 ， 套 索 回 归 使 用 了 全 部 的 特征 ， 而 且 在 测试 数据 集 
中 的 得 分 稍微 低 于 在 alpha 等 于 0.1 时 的 得 分 ， 这 说 明 降 低 alpha 的 数值 会 让 模型 倾 问 于 
出 现 过 拟 合 的 现象 。 
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接 下 来 , 我 们 继续 用 图 像 的 方式 来 对 不 同 alpha 值 的 套 索 回归 和 上 岭 回 归 进 行 系数 对 比 ， 
运行 下 面 的 代码 ; 

# 绘 制 alpha 值 等 于 1 时 的 模型 系数 

Pit:plotllasso-coef , "з", label Tasso а1рһа=1") 

# 绘 制 alpha 值 等 于 0 .11 时 的 模型 系数 

Plt.plot (1азз001.соеЕ , "^", label="Lasso а1рһа=0.1") 

# 绘 制 alpha 值 等 于 0 .0001 时 的 模型 系数 

plt.plot (lasso0000l.coef , 'v', label="Lasso а1рһа=0. 0001") 

# 绘 制 alpha 值 等 于 0 .1 时 的 岭 回 归 模 型 系数 作为 对 比 

ріё.р1ої (гійде01.соеЁ , "о", ТаБе1-"Е1дде а1рһа=0.1") 

рі. 1едепа (псо1=2,1ос= (0,1.05)) 

plt уа 292297 

р1ё.х1аре1 ("Coefficient index") 
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深入 浅 出 Python 机 器 学 习 


3 天 全 都 比较 闷热， 且 3 天 全 部 出 现 了 多 云 的 现象 ， 有 意思 的 是 ， 这 3 天 的 天 气 预 报 都 
HARAN 

那么 对 于 朴素 贝 叶 斯 来 说 ， 它 会 根据 上 述 的 计算 来 进行 推理 。 它 会 认为 ， 如 果 茶 一 
天 天 气 预 报 没 有 播报 有 两， 但 出 现 了 多 云 的 情况 ， 它 会 倾 各 于 把 这 一 天 放 到 “下 雨 ” 这 
一 个 分 类 中 。 


下 面 我 们 来 验证 一 下 ， 在 Jupyter Notebook 里 输入 代码 如 下 : 
# 导 入 贝 努 利 贝 叶 斯 


from зКкТеагп.патуе bayes import BernoulliNB 
# 使 用 贝 努 利 贝 叶 斯 拟 合 数据 

clf = BernoulliNB () 

lf L(t y) 

# 要 进行 预测 的 这 一 天 ， 没 有 刊 北 风 ， 也 不 闷热 

# 但 是 多 云 ， 天 和 气 预 报 没 有 说 有 雨 

Next рау = [[0, 0, 1, 011 

рге = сіЁ.ргеаісі [Next рау) 

Printi "\п\п\п') 

print ( "代码 运行 结果 : ') 


if рге == [1]: 
print ("要 下 雨 啦 ， 快 收 衣服 啊 ! ") 
else: 
print ("放心 ， 又 是 一 个 艳阳 天 ") 
print (Два 
print ('\n\n\n') 


运行 代码 的 结果 如 图 5-2 所 示 。 


ЕГНЕ Б 


таз. Hippi 


5-2 ”模型 预测 会 下 雨 


【 结果 分 析 】 可 以 看 出 ， 朴 素 贝 叶 斯 分 类 器 把 这 一 天 放 到 了 会 下 十 的 分 类 当中 。 
那么 如 果 有 画 外 一 天 , 刊 了 北 风 ， 而 且 很 浆 热 ， 但 云 量 不 多 ， 同 时 天 人 气 预 报 说 有 两 ， 


会 怎样 呢 ? 我 们 输入 代码 如 下 : 


# 假 设 另外 一 天 的 数据 如 下 
= 

# 使 用 训练 好 的 模型 进行 预测 

рге2 = сіЁ.ргедісі (Another дау) 
printi! ynna) 


Жош pany ВЕ, ВЕЩ 


运行 代码 ， 会 得 到 如 图 5-3 所 示 的 结果 。 


5-3 ”模型 预测 这 一 天 不 会 下 雨 


【 结果 分 析 】 可 以 看 到 ， 这 次 分 类 器 把 这 一 天 归 为 不 会 下 雨 的 分 类 中 了 。 
现在 大 家 可 能 很 想 知道 朴素 贝 叶 斯 给 出 的 预测 准确 率 怎么 样 ， 我 们 可 以 用 predict_ 
proba 方法 来 测试 一 下 ， 输 入 代码 如 下 : 


运行 代码 ， 会 得 到 如 图 5-4 所 示 的 结果 。 


5-4 模型 预测 数据 点 所 述 分 类 的 概率 


【 结果 分 析 】 这 个 意思 是 说 ， 我 们 所 预测 的 第 一 天 ， 不 下 十 的 概率 大 约 是 13.8%, 
而 下 雨 的 概率 是 86.2%， 看 起 来 还 是 很 不 错 的 。 


再 看 一 下 第 二 天 的 预测 情况 。 输 入 代码 如 下 : 


ргіпЕ ("Хо\оҳа") 


# 打 印 另 外 一 天 模型 预测 的 分 类 概率 

print (clf.predict Proba (Another day) ) 
ргіпі ( "\п\п\п') 

print(' 代 码 运行 结果 : ') 


И Фф влага а wi] 


а-а =з в св TD om асов ше ш со ee в ан в св а в ан 


5-5 ”模型 预测 的 另外 一 天 的 分 类 概率 


【 结果 分 析 】 也 就 是 说 ， 第 二 天 不 下 雨 的 概率 是 92.3%， 下 雨 的 概率 只 有 7.7%, X 
样 看 起 来 ， 朴 素 贝 叶 斯 做 出 的 预测 还 不 错 。 


不 要 太 乐 观 ! 如 果 大 家 在 scikit-learn 官网 上 查看 文档 ， 会 发 现 一 段 很 搞笑 的 描 
述 一 一 虽然 朴素 贝 叶 斯 是 相当 好 的 分 类 器 ， 但 对 于 预测 具体 的 数值 并 不 是 很 擅长 ， 因 此 
predict_proba 给 出 的 预测 概率 ， 大 家 也 不 要 太 当 真 。 


5.2 朴素 贝 叶 斯 算法 的 不 同方 法 


朴素 贝 叶 斯 算法 包含 多 种 方法 ， 在 scikit-learn 中 ， 朴 素 贝 叶 斯 有 三 种 方法 ， 分 别 是 
贝 努 利 朴 素 贝 叶 斯 СВегпошіі Naïve Bayes) 、 高 斯 贝 叶 斯 (Gaussian Naïve Bayes) 和 多 
项 式 朴 素 贝 叶 斯 (Multinomial Naive Bayes) ， 本 节 将 对 这 几 种 方法 进行 介绍 。 
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在 上 面 的 例子 当中 ， 我 们 使 用 了 朴素 贝 叶 斯 算法 中 的 一 种 方法 ， 称 为 贝 努 利 朴 素 贝 
叶 斯 (Bernoulli Naïve Bayes) ， 这 种 方法 比较 适合 于 符合 贝 努 利 分 布 的 数据 集 ， 贝 努 利 
分 布 也 被 称 为 “二 项 分 布 ”或 者 是 “0-1 分 布 ”， 比 如 我 们 进行 抛 便 币 的 游戏 ， 便 币 落 下 


第 5 章 朴素 贝 叶 斯 一 -打雷 啦 ， 收 衣服 徊 


来 只 有 两 种 可 能 的 结果 : 正面 或 者 反面 ， 这 种 情况 下 ， 我 们 就 称 抛 硬币 的 结果 是 贝 努 利 
分 布 的 。 

在 刚才 我 们 举 的 例子 当中 ， 数 据 集 中 的 每 个 特征 都 只 有 0 和 1 两 个 数值 ， 在 这 种 情 
况 下 ,， 贝 努 利 贝 叶 斯 的 表现 还 不 错 。 但 如 果 我 们 用 更 复杂 的 数据 集 , 结果 可 能 就 不 一 样 了 ， 
下 面 我 们 动手 来 试 一 试 ， 输 入 代码 如 下 : 

# 导 入 数据 集 生成 工具 


from sklearn.datasets import make blobs 

# 导 入 数据 集 拆 分 工具 

from sklearn.mnodel selection import train test split 

# 生 成 样本 数量 为 500， 分 类 数 为 5 的 数据 集 

X, у = make Б1оБз (п затр1ез=500, сепіегз=5, гапаот state=8) 
# 将 数据 集 拆 分 成 训练 集 和 训练 集 

X Егатп,Х Тез, у Сгатп, у test=train test зр11 с (Х, у,гапдош зсасе-8) 
# 使 用 贝 努 利 贝 叶 斯 拟 合 数据 

nb = Вегпоц11імвВ () 

nb.fit(X Егатп,у train) 

peint ionin] 

print(' 代 码 运行 结果 : ') 


人 
# 打 印 模 型 得 分 

print ( :模型 得 分 : {:.3f}'.format (nb -Score (Х test, y test) ) ) 
print ('\n============= k) 


printi" nnn 

这 里 我 们 还 是 使 用 了 非常 熟悉 的 make_blobs 来 生成 手工 数据 集 ， 为 了 加 大 难度 ， 我 
们 令 样 本 数量 为 500， 而 分 类 的 数量 为 5 个 ， 也 就 是 centers 参数 等 于 5， 运 行 代 码 ， 会 
得 到 如 图 5-6 所 示 的 结果 。 


5-6 ”模型 在 测试 集中 的 得 分 


【 结果 分 析 】 可 以 看 到 ， 在 我 们 手工 生成 的 相对 复杂 的 数据 集中 ， 贝 努 利 朴素 贝 叶 
斯 的 得 分 相当 糟糕 ， 只 有 大 约 一 半 的 数据 被 放 进 了 正确 的 分 类 ， 这 是 为 什么 呢 ? 
下 面 我 们 通过 图 像 来 了 解 一 下 贝 努 利 朴素 贝 叶 斯 的 工作 过 程 ， 输 入 代码 如 下 : 


# 导 入 画图 工具 
import matplotlib.pyplot аз plt 


# 限 定 横 轴 与 纵 轴 的 最 大 值 
x піп, х шах = X[:,0].min()-0.5, X[:,0] шах () +0.5 
у піп, у пах = X[:,1] .min()-0.5, X[:,1] .max()+0.5 
# 用 不 同 的 背景 色 表示 不 同 的 分 类 
хх,уу = пр.тезһагіа (пр.агапде (x тіп, x max, .02), 
пр.агапде (у тіп, у max, .02)) 
2 = пр.ргеаісі (пр.с | (хх.гауе1 (), уу.гауе1 ()) |) . гезһаре (хх.зһаре) 
plt.pcolormesh (хх, уу, Z, спар=р1ії .ст.Разіе11) 
# 将 训练 集 和 测试 集 用 散 点 图 表示 
plt.scatter(X Сгатп | :,0|,Х Егатп | :,1|,сеу Егатп,спар-р1Е.сш.соо1,еддесо1ог-"К") 
plt.scatter(X ёезё[:,0],Х Тез |:,1|,се-у безі, стар=рі+ .сш.соо1,шпагКкег-"?", 
edgecolor="k") 
Blt Lm min(ly „жх.шах()) 
plt.ylim(yy.min (),yy.max()) 
# 定 义 图 题 
plt.title('Classifier: BernoulliNB') 
# 现 实 图 片 
рі. зһом () 


运行 代码 ， 将 会 得 到 如 图 5-7 所 示 的 结果 。 


Classifier:BernoulliNB 
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5-7 ” 贝 努 利 朴素 贝 叶 斯 对 make_blobs 数据 集 的 分 类 


【 结果 分 析 】 在 图 5-7 中 ， 我 们 可 以 看 到 贝 努 利 朴素 贝 叶 斯 的 模型 十 分 简单 ， 它 分 
别 在 横 轴 等 于 0 和 纵 轴 等 于 0 的 位 置 画 了 两 条 直线 ， 再 用 这 两 条 直线 形成 的 4 个 象限 对 
数据 进行 分 类 。 这 是 因为 我 们 使 用 了 贝 努 利 朴 素 贝 叶 斯 的 默认 参数 binarize=0.0， 所 以 模 
型 对 于 数据 的 判断 是 ， 如 果 特 征 1 大 于 或 等 于 0， 且 特征 2 大 于 或 等 于 0， 则 将 数据 归 为 


N 
E 


Со 
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一 类 ; 如 果 特 征 1 小 于 0， 且 特征 2 也 小 于 0， 则 归 为 男 一 类 而 其 余 的 数据 全 部 归 为 第 三 
类 ， 难 怪 模型 的 得 分 这 么 差 了 。 

所 以 在 这 种 情况 下 ， 我 们 就 不 能 再 使 用 贝 努 利 朴 素 贝 叶 斯 ， 而 要 用 其 他 的 方法 ， 例 
如 下 面 要 讲 到 的 高 斯 朴素 贝 叶 斯 方法 。 


5.2.2 ”高 斯 朴素 贝 叶 斯 


高 斯 朴素 贝 叶 斯 ， 顾 名 思 义 ， 是 假设 样本 的 特征 符合 高 斯 分 布 ， 或 者 说 符合 正 态 分 
布 时 所 用 的 算法 。 接 下 来 我 们 尝试 用 高 斯 朴素 贝 叶 斯 对 刚刚 生成 的 数据 集 进行 拟 合 ， 


看 结果 如 何 ， 输 入 代码 如 下 : 
# 导 入 高 斯 贝 叶 斯 


from sklearn.naive bayes import GaussianNB 
# 使 用 高 斯 贝 叶 斯 拟 合 数据 

gnb = GaussianNB () 

дпр.ћё (Х Erain, у train) 

ргіпі ("аа") 


print ("==============================\n'") 

# 打 印 模型 得 分 

print :模型 得 分 : {:.3f}'.format (gnb.score(X test, y test) ) ) 
print ( "NmD 王 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ) 


printt" AAA ) 


运行 代码 ， 会 得 到 如 图 5-8 所 示 的 结果 。 


5-8 高 斯 贝 叶 斯 的 模型 得 分 


【 结果 分 析 】 看 起 来 ， 使 用 高 斯 朴素 贝 叶 斯 方法 建立 的 模型 得 分 要 好 了 很 多 ， 准 确 
率 达 到 了 96.8%， 这 说 明 我 们 生成 的 手工 数据 集 的 特征 基本 上 符合 正 态 分 布 的 情况 。 
下 面 我 们 再 次 用 图 像 来 进行 演示 ， 以 便 了 解 高 斯 朴素 贝 叶 斯 的 工作 工程 ， 输 入 代码 


如 下 : 
# 用 不 同色 块 来 表示 不 同 的 分 类 


z = gnb.predict(np.c | (хх.гауе1 (),уу.гауе1 ()) |) . гезһаре (хх.зһаре) 
plt.pcolormesh (хх, уу, 2, спар=р1ії .ст.Разіёе11) 


# 用 散 点 图 画 出 训练 集 和 测试 集 数 据 


C071 > 


plt.scatter(X train[:,0],X train[:,1],c=y Егатп,сшар-р1Е.сш.соо1, еддесоТог-"К") 

plt.scatter(X ёезі[:,0],Х Тез |:,1|,сеу test,cmap=plt.cm.cool,marker="*", 
еадесо1ог='К') 

# 设 定 横 轴 纵 轴 的 范围 

plt .xlim(xx.min(),xx.max()) 

plt.ylim(yy.min (),yy.max ()) 


# 设 定 图 题 

plt.title('Classifier: GaussianNB') 

# 男 出 图 形 

plt.show() 

运行 代码 ， 会 得 到 如 图 5-9 所 示 的 结果 。 


Classifier:GaussianNB 
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图 5-9 高 斯 朴素 贝 叶 斯 对 数据 集 的 分 类 


【 结果 分 析 】 从 图 5-9 中 我 们 可 以 看 到 ， 高 斯 朴素 贝 叶 斯 的 分 类 边界 比 贝 努 利 朴素 
贝 叶 斯 的 分 类 边界 要 复杂 得 多 ， 也 基本 上 把 数据 点 都 放 进 了 正确 的 分 类 当中 了 。 

事实 上 ， 高 斯 朴素 贝 叶 斯 也 确实 是 能 够 胜任 大 部 分 的 分 类 任务 ， 这 是 因为 在 目 然 科 
学 和 社会 科学 领域 ， 有 大 量 的 现象 都 是 呈现 出 正 态 分 布 的 状态 。 接 下 来 ， 我 们 要 介绍 第 
三 种 方法 一 一 多 项 式 朴素 贝 叶 斯 。 


5.23 ”多项式 朴素 贝 叶 斯 


多 项 式 朴 素 贝 叶 斯 ， 从 名 字 也 可 以 推断 出 它 主要 是 用 于 拟 合 多 项 式 分 布 的 数据 集 。 
可 能 多 项 式 分 布 相 对 于 二 项 式 分 布 和 高 斯 分 布 来 说 ， 我 们 会 接触 得 少 一 些 。 但 如 果 我 们 
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可 以 理解 二 项 式 分 布 ， 那 么 理解 多 项 式 分 布 也 会 非常 简单 。 二 项 式 分 布 可 以 通过 抛 便 币 
的 例子 来 进行 理解 ， 那 么 多 项 式 分 布 都 可 以 用 掷 仍 子 来 理解 。 

我 们 知道 硬币 只 有 两 个 面 ， 正 面 和 反面 ， 而 人 般 子 有 6 ЛУ, КЕКВ, 25 
果 都 可 能 是 从 1 一 6 这 6 个 数字 , ЖИ АКТ, 而 每 个 面 朝 上 的 次 数 的 分 布 情况 ， 
束 是 一 个 多 项 式 分 布 。 

现在 我 们 继续 使 用 生成 的 手工 数据 集 来 对 多 项 式 朴 素 贝 叶 斯 进行 实验 ， 输 入 代码 
如 下 : 

# 导 入 多 项 式 朴 素 贝 叶 斯 


from sklearn.naive bayes import MultinomialNB 


# 用 多 项 式 朴素 贝 叶 斯 拟 合 数据 
mnb = MultinomialNB () 
mmb.Ht(x train, у train) 
mnb.score(X test, у test) 


上 面 这 段 代 码 和 我 们 使 用 贝 努 利 朴素 贝 叶 斯 或 是 高 斯 朴素 贝 叶 斯 看 起 来 没有 什么 区 
别 ， 但 是 这 样 使 用 多 项 式 朴素 贝 叶 斯 是 错误 的 。 


运行 代码 ， 程 序 会 报错 ， 并 且 给 出 提示 信息 如 图 5-10 所 示 。 
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5-10 程序 报错 ， 提 示 皂 值 必须 是 非 负 的 


【 结果 分 析 】 提 示 信 息 告诉 我 们 ， 输 入 的 站 值 必 须 是 非 负 的 ， 这 样 的 话 ， 我 们 需要 
对 数据 进行 一 下 预 处 理 才 行 。 
所 以 我 们 需要 把 代码 改 成 如 下 的 样子 : 
# 导 入 多 项 式 朴素 贝 叶 斯 


from sklearn.naive bayes import MultinomialNB 
# 导 入 数据 预 处 理工 具 MinMaxScaler 
from sklearn.preprocessing import MinMaxScaler 


# 使 用 MinMaxScaler 对 数据 进行 预 处 理 ， 使 数据 全 部 为 非 负 值 


С 073 > 


深入 浅 出 Python 机 器 学 习 


scaler = MinMaxScaler () 

scaler.ñt(X train) 

X Егатп acaled = зса1їег.ігапзЁогтю (х train) 
Х test зса1еа = scaler- -transform{X test) 

# 使 用 多 项 式 朴素 贝 叶 斯 拟 合 经 过 预 处 理 之 后 的 数据 
mnb = MultinomialNB () 
mnb.fit (X train scaled, y train) 
ргіпі ( "\п\п\п') 

print(' 代 码 运行 结果 : ') 


print ('=========== NN  ) 

# 打 印 模型 得 分 

print ( ' 模 型 得 分 : {:.3f}"' .format (mnb.score(X test scaled, у test))) 
print ('\n==============================") 


Printi Anyon") 


重新 运行 代码 ， 程 序 不 再 报错 ， 并 且 给 出 模型 的 分 数 如 图 5-11 所 示 。 


图 5-11 多 项 式 朴素 贝 叶 斯 的 模型 得 分 


【 结果 分 析 】 从 结果 中 可 以 看 出 ， 虽 然 经 过 了 预 处 理 将 所 有 特征 值 转化 为 非 负 的 ， 
但 是 多 项 式 朴 素 贝 叶 斯 还 是 不 能 获得 较 高 的 分 数 ，32% 的 准确 率 甚 至 比 贝 努 利 朴素 贝 叶 
斯 的 得 分 还 要 更 糟糕 一 点。 

如 果 我 们 用 图 形 来 表示 的 话 ， 也 可 以 直观 地 看 出 多 项 式 朴 素 贝 叶 斯 并 不 适合 用 来 拟 


合 这 个 数据 集 ， 输 入 代码 如 下 : 
# 用 不 同 颜色 区 分 不 同 的 分 类 


z = mnb.predict (пр.с | (хх.гауе1 (),уу.гауе1 ()) |) .reshape (хх.зһаре) 

plt .pcolormesh (хх, уу, Z, спар=р1ії.стю.Разіе11) 

# 用 散 点 图 表示 训练 集 和 测试 集 

pilt-scatter(X train|:,0];X Егатп | :,1|,сеу Егатп,спар-р1Е.сш.соо1,еддесо1ог-"К") 

ріс.зсаііег (Х ёезі[:,0],Х ёезі[:,1],с=у сезі, стар=рі+ .стю.соо1, тагкег='*', 
еадесо1ог='Кк') 

# 设 定 横 纵 轴 范 围 

ргЕ-ж тт (хх.шп(), „жх.шаж(!|) 

plt.yliml(yy.min(),yy.max()) 

# 设 定 图 题 

plt.title('Classifier: MultinomialNB') 

# 显 示 图 片 

plt.show () 
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运行 代码 ， 将 会 得 到 结果 如 图 5-12 тл. 


Classifier:Multinomi1al NB 
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图 5-12 ”多 项 式 朴素 贝 叶 斯 进行 的 分 类 
【 结果 分 析 】 从 图 5-12 中 可 以 看 出 多 项 式 朴 素 贝 叶 斯 所 进行 的 分 类 确实 比 贝 努 利 朴 
素 贝 叶 斯 的 还 要 差 一 些 ， 大 部 分 数据 点 都 被 放 到 了 错误 的 分 类 中 。 
这 是 因为 ， 多 项 式 朴 素 贝 叶 斯 上 只 适合 用 来 对 非 负 离 散 数值 特征 进行 分 类 ， 典 型 的 例 
子 就 是 对 转化 为 回 量 后 的 文本 数据 进行 分 类 。 文 本 数据 的 处 理 我 们 将 会 在 第 13 з АХ 
家 介绍 ， 这 里 我 们 暂时 略 过 。 


在 本 例 中 ， 我 们 使 用 了 MinMaxScaler 对 数据 进行 预 处 理 ，MinMaxScaler 的 作用 
是 将 数据 集中 的 特征 值 全 部 转化 为 0 ~ 1。 更 多 关于 数据 预 处 理 的 内 容 ， 我 们 将 在 后 面 
的 章节 进行 讲解 。 


5.3” 朴 泰 贝 叶 斯 实战 一 一 判断 肿瘤 是 恨 性 还 是 恶性 
接 下 来 ， 我 们 将 使 用 朴素 贝 叶 斯 算法 来 进行 一 个 小 的 项 目 实战 一 判断 一 个 患者 的 


肿瘤 是 展 性 还 是 恶性 。 这 里 我 们 会 用 到 一 个 来 自 真实 世界 的 数据 集 一 一 威斯康星 乳腺 肿 
瘤 数 据 集 。 


5.3.1 对 数据 集 进 行 分 析 


威斯康星 乳腺 肿瘤 数据 集 是 一 个 非常 经 典 的 用 于 医疗 病情 分 析 的 数据 集 ， 它 包括 569 个 
病例 的 数据 样本 ,每 个 样本 具有 30 个 特征 值 ， 而 样本 共 分 为 两 类 : 分 别 是 恶性 (Malignant) 
MEHE (Benign) 。 下 面 我 们 就 载 入 这 个 数据 集 并 了 解 一 下 它 的 样子 ， 输 入 代码 如 下 : 

# 导 入 威斯康星 乳腺 肿瘤 数据 集 


from sklearn.datasets import load breast cancer 
cancer = load breast cancer () 

print ('\n\n\n') 

print ( "代码 运行 结果 : 


printi. E АР АРИР НЕ ) 
村 ] 印 数据 集 键 值 
print (сапсег.Кеуз ()) 
print ("'\n==============================" ) 


printi "Кофи" ) 


运行 代码 ， 会 得 到 该 数据 集 的 键 值 如 图 5-13 Рог. 


5-13 ”乳腺 肿瘤 数据 集中 的 键 什 


【 结果 分 析 】 从 这 个 结果 中 可 以 看 到 ， 数 据 集 包 含 的 信息 有 特征 数据 data、 分 类 值 
target、 分 类 名 称 target_names、 数 据 描述 DESCR， 以 及 特征 名 称 feature_names。 


下 面 我 们 来 看 一 下 分 类 的 名 称 和 特征 的 名 称 ， 输 入 代码 如 下 : 
# 打 印 数据 集中 标注 好 的 肿瘤 分 类 


print (' 肿 瘤 的 分 类 : ',сапсег[' target патез']) 
# 打 印 数据 集中 的 肿瘤 特征 名 称 
printi." \n 肿 瘤 的 特征 : \n',cancer[' feature names']) 


运行 代码 ， 会 得 到 如 图 5-14 的 结果 。 
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5-14 数据 集中 肿瘤 的 分 类 与 特征 名 称 
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【 结果 分 析 】 就 像 我 们 之 前 所 说 ， 该 数据 集中 肿瘤 的 分 类 包括 恶性 (Malignant〉 和 
民 性 〈Benign) ， 而 特征 值 就 多 了 很 多 ， 如 半径 、 表 面 纹理 的 灰 度 值 、 周 长 值 、 表 面积 值 、 
平滑 度 等 。 当 然 这 些 都 涉及 一 定 的 医学 知识 ， 我 们 就 不 逐一 展开 了 。 

下 面 我 们 开始 使 用 朴素 贝 叶 斯 算法 进行 建 模 。 


5.3.2 ”使 用 高 斯 朴素 贝 叶 斯 进行 建 模 


用 我 们 的 直觉 来 分 析 的 话 ， 这 个 数据 集 的 特征 值 并 不 属于 二 项 式 分 布 ， 也 不 属于 多 
项 式 分 布 ， 所 以 这 里 我 们 选择 使 用 高 斯 朴素 贝 叶 斯 〈《GaussianNB ) 。 不 过 首先 ， 我 们 要 
将 数据 集 拆 分 为 训练 集 和 测试 集 ， 输 入 代码 如 下 : 

# 将 数据 集 的 数值 和 分 类 目标 赋值 给 Xx 和 y 


X, у = cancer.data, cancer.target 

# 使 用 数据 集 拆 分 工具 拆 分 为 训练 集 和 测试 集 

Х train, Х безі, у train, у test = train test зріії (Х, у, random state=38) 
ргіпі ( "\п\п\п') 

print (' 代 码 运 行 结 果 : ") 

print ('==============================\n'") 

# 打 印 训练 集 和 测试 集 的 数据 形态 

print (' 训练 集 数 据 形态 : ',X train.shape) 

print (' 测 试 集 数据 形态 : ',х test.shape) 


ргіпі ( "\п\п\п') 


运行 代码 ， 会 得 到 结果 如 图 5-15 所 示 。 
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图 5-15 ”训练 集 和 测试 集中 数据 的 形态 


【 结果 分 析 】 从 结果 中 我 们 可 以 看 到 ， 通 过 使 用 train_test_split 工具 进行 拆 分 ， 现 在 
的 训练 集中 有 426 个 样本 ， 而 测试 集中 有 143 个 样本 ， 当 然 ， 特 征 数量 都 是 30 个 。 
下 面 我 们 开始 用 高 斯 朴素 贝 叶 斯 对 训练 数据 集 进 行 拟 合 ， 输 入 代码 如 下 : 
# 使 用 高 斯 朴素 贝 叶 斯 拟 合 数据 


gnb = Сацззіапмв () 

gab. HEX Егатп, у train) 

ргіпі ( "\п\п\п') 

print(' 代 码 运行 结果 : ') 

print ('==============================\n'") 


# 打 印 模型 评分 


printi: 训练 集 得 分 : {:.3f}'.format (апр.зсоге (X train, у train))) 
printi. 测试 集 得 分 : {:-3f}" . format (дпр.зсоге(Х test, у teat})}) 


Print ( "\п\п\п') 


运行 代码 ， 将 得 到 如 图 5-16 所 示 的 结果 。 


5-16 高 斯 朴素 贝 叶 斯 模型 的 得 分 


【 结果 分 析 】 从 结果 中 可 以 看 到 ，GaussianNB 在 训练 集 和 测试 集 的 得 分 都 非常 不 错 ， 
КЕ 95% 左右 。 

下 面 我 们 随便 用 其 中 一 个 样本 〈 如 第 312 个 样本 ) 让 模型 进行 一 下 预测 ， 看 是 否 可 
以 分 到 正确 的 分 类 中 ， 输 入 代码 如 下 : 


printt'\n\n\n’) 


# 打 印 模型 预测 的 分 类 和 真实 的 分 类 

print (' 模 型 预测 的 分 类 是 : {}' .format (gnb.predict ([X[312]]))) 
print (' 样 本 的 正确 分 类 是 : ',у[312]) 
print("'\n==============================") 

Printi nnn") 


运行 代码 ， 会 得 到 如 图 5-17 所 示 的 结果 。 


图 5-17 模型 预测 的 分 类 与 其 真实 分 类 的 对 比 


【 结果 分 析 】 从 结果 中 我 们 看 到 ， 模 型 对 第 312 个 样本 所 进行 的 分 类 和 正确 的 分 类 
完全 一 致 ， 都 是 分 类 1， 也 就 是 说 ， 这 个 样本 的 肿瘤 是 一 个 良性 的 肿瘤 。 


5.3.3 ”高 斯 朴素 贝 叶 斯 的 学 习 曲 线 
在 机 器 学 习 中 ， 有 一 个 概念 称 为 学 习 曲 线 (learning curve〉， 指 的 是 随 着 数据 集 样 
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第 5 章 朴素 贝 叶 斯 一 -打雷 啦 ， 收 衣服 徊 


本 数量 的 增加 ， 模 型 的 得 分 变化 情况 。 下 面 我 们 一 起 来 绘制 一 下 高 斯 朴素 贝 叶 斯 在 威 斯 


康 星 乳腺 肿瘤 数据 集中 的 学 习 曲 线 ， 输 入 代码 如 下 : 
# 导 入 学 习 曲 线 库 


from sklearn.model selection import learning curve 
# 导 入 随机 拆 分 工具 
from sklearn.model selection import ShuffleSplit 
# 定 义 一 个 函数 绘制 学 习 曲 线 
def plot learning curve (estimator, title, X, y, у11ш-Мопе, су=Мопе, 
п jobs=1, train зіғ2ез=пр.1іпзрасе(.1, 1.0, 5)): 
plt .figure () 
plt.title (title) 
if ylim is not None: 


plt:ylim(*ylim) 
# 设 定 横 轴 标签 
plt.xlabel ("Training examples") 
# 设 定 纵 轴 标 签 
р1Е. уТаБе1 ("Ѕсоге") 
Crain зі2ез, Crain зсогез, Тез зсогез = learning сигте ( 
estimator, X, у, су=су, п )оЮз-п јорз, Crain зі2ез=ігаіп 312693) 
train зсогез mean = пр.теап (train scores, ахіз=1) 
сезі зсогез mean = пр.шеап (безі зсогез, ахіз=1) 
реда 


ріё.р1ої (Егатп sizes; ігаіп зсогез пеап, "о-", со10г-"г", 
label="Training score") 

pit.plot (train sizes, test scores mean, "о-", со1ог-"а", 
label="Cross-validation score") 


plt .legend(loc="lower right") 
return plt 


# 设 定 图 题 


title = "Learning Curves (Naive Вауез)" 


# 设 定 拆 分 数量 

су = бпиГПедр115 (п splits=100, test зі2е=0.2, random state=0) 

# 设 定 模型 为 高 斯 朴素 贝 叶 斯 

estimator = GaussianNB () 

# 调 用 我 们 定义 好 的 函数 

plot learning curve (estimator, Titler X, у, у11ш- (0.9, 1.01), су-су, п јорз=4) 
# 显 示 图 片 

рі. зһом () 


运行 代码 ， 会 得 到 如 图 5-18 所 示 的 结果 。 

【 结果 分 析 】 从 图 5-18 中 可 以 看 到 ， 在 训练 数据 集中 ， 随 着 样本 量 的 增加 ， 模 型 的 
得 分 是 逐渐 降低 的 。 这 是 因为 随 着 样本 数量 增加 ， 模 型 要 拟 合 的 数据 越 来 越 多 ， 难 度 也 
越 来 越 大 。 而 模型 的 交叉 验证 得 分 的 变化 相对 没有 那么 明显 ， 从 10 个 样本 左右 一 直到 接 
近 500 个 样本 为 止 ， 分 数 一 直 在 0.94 左右 浮动 。 这 说 明 高 斯 朴素 贝 叶 斯 在 预测 方面 ， 对 
于 样本 数量 的 要 求 并 没有 那么 苛刻 。 所 以 如 果 你 的 样本 数量 比较 少 的 话 ， 应 该 可 以 考虑 
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使 用 朴素 贝 叶 斯 算法 来 进行 建 模 。 
学 习 曲 线 〈 朴 素 贝 叶 斯 ) 


-e- 训练 集 得 分 
—— 交叉 验证 得 分 
100 200 300 400 


训练 集 样本 数 
图 5-18 高 斯 朴素 贝 叶 斯 的 学 习 曲 线 


5.4 ИМА 


在 本 章 中 , 我 们 一 起 学 习 了 朴素 贝 叶 斯 算法 和 它 的 几 种 变 体 一 一 贝 努 利 朴素 贝 叶 斯 、 
高 斯 朴素 贝 叶 斯 和 多 项 式 朴 素 贝 叶 斯 。 贝 努 利 朴素 贝 叶 斯 适合 与 二 项 式 分 布 的 数据 集 ， 
而 多 项 式 朴素 贝 叶 斯 适合 计数 类 型 的 数据 集 ， 即 非 负 、 离 散 数值 的 数据 集 ， 而 高 斯 朴素 
贝 叶 斯 适用 的 面 就 要 广 得 多 ， 它 可 以 应 用 于 任何 连续 数值 型 的 数据 集 当中 ， 当 然 如 果 是 
符合 正 态 分 布 的 数据 集 的话 ， 高 斯 朴素 贝 叶 斯 模型 的 得 分 会 更 高 。 

相 比 起 线性 模型 算法 来 说 ， 朴 素 贝 叶 斯 算法 的 效率 要 高 一 些 ， 这 是 因为 朴素 贝 叶 斯 
算法 会 把 数据 集中 的 各 个 特征 看 作 完 全 独立 的 ， 而 不 考虑 特征 之 间 的 关联 关系 。 但 同时 
模型 泛 化 的 能 力 会 稍微 弱 一 点 ， 不 过 一 般 情 况 下 并 不 太 影 啊 实 际 的 使 用 。 尤 其 是 在 现在 
这 个 大 数据 时 代 ， 很 多 数据 集 的 样本 特征 可 能 成 后 上 万 ， 这 种 情况 下 ， 模 型 的 效率 要 比 
模型 泛 化 性 能 多 零点 几 个 百分点 的 得 分 重要 得 多 。 在 这 种 超 高 维度 的 数据 集中 ， 训 练 一 
个 线性 模型 的 时 间 可 能 会 非常 长 ， 因 此 在 这 种 情况 下 ， 朴 素 贝 叶 斯 算法 往往 是 一 个 更 好 
的 选择 。 

在 第 6 章 中 ， 我 们 会 一 起 学 习 决 策 树 和 随机 森林 算法 ， 它 们 也 是 目前 非常 流行 的 算 
法 之 一 ， 接 下 来 我 们 马上 开启 新 的 旅程 。 
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BOR 决策 树 与 随机 森林 会 玩 读 心术 的 算法 


按照 惯例 ， 我 们 还 是 用 一 个 小 故事 来 引入 本 章 的 内 容 : 某 天 ， 小 C 的 表妹 小 Q RR 


小 C, 说 她 遇 到 了 一 点 困扰 一 一 小 Q 的 同事 给 她 介绍 了 一 个 对 象 Mr 72, Mr. Z 现年 37 岁 ， 
在 某 省 机 关 做 文员 工作 。 但 是 小 QQ 的 择偶 标准 是 需要 对 方 月 薪 在 5 万 以 上 (不 要 加 小 Q 
HE, 我 们 只 是 为 了 引入 后 面 的 内 容 ) ， 但 是 又 不 好 直接 问 Mr Z， 所 以 拿 不 定 主意 要 不 
要 和 Mr. Z 深入 交往 ， 想 让 小 C 帮忙 做 个 决策 。 说 到 决策 ， 小 C 自然 想到 决策 树 算法 ， 
而 说 到 决策 树 算 法 ， 又 自然 会 想到 随机 森林 。 

本 章 主 要 涉及 的 知识 点 有 : 
决策 树 的 基本 原理 和 构造 
决策 树 的 优势 和 不 足 
随机 森林 的 基本 原理 和 构造 
随机 森林 的 优势 和 不 足 
实例 演示 : 小 Q 要 不 要 和 相亲 对 象 进 一 步 发 展 


+ 
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深入 浅 出 Python 机 器 学 习 


6.1 жи 


决策 树 是 一 种 在 分 类 与 回归 中 都 有 非常 广泛 应 用 的 算法 ， 它 的 原理 是 通过 对 一 系列 
问题 进行 if/else 的 推导 ， 最 终 实 现 决 策 。 


6.1.1 决策 树 基本 原理 


记得 有 个 在 公司 团 建 时 候 经 前 玩 的 洲 戏 ， 称 为 “ 读 心 术 ” 一 一 在 一 组 人 里 选 出 一 个 
出 题 者 , 出 题 者 在 心中 默 想 一 个 人 或 事物 , 其 余 的 人 可 以 提问 题 , 但 是 出 题 者 只 能 回答 “是 ” 
或 者 “ 否 ”， 游 戏 限 定 提问 者 一 共 只 能 提出 20 个 问题 。 在 20 个 问题 内 ， 如 果 有 人 猜 中 
了 出 题 者 心里 想 的 人 或 事物 ， 则 出 题 者 输 挥 游戏 ;， 如 果 20 个 问题 问 完 还 没有 人 猜 中 ， 则 
出 题 者 胜利 。 这 个 游戏 就 可 以 使 用 决策 树 的 算法 来 进行 表达 。 

举 个 例子 : 假设 出 题 者 心里 想 的 是 斯 吝 丽 。 约 畸 进 、 泰 勒 斯 威夫 特 、 天 并 祖 、 威 尔 。 史 
密斯 4 个 人 中 的 一 个 ， 则 提问 决策 树 如 图 6-1 所 示 。 


是 E 
是 电影 演员 吗 ? 是 中 国人 吗 ? 
是 1 是 个 


е онад. (28) АН 


6-1 “ 读 心 本 ”游戏 中 的 决策 树 


6-1 中 ， 最 终 的 4 个 节点 ， 也 就 是 4 个 人 物 的 名 字 ， 被 称 为 决策 树 的 树叶 。 例 子 
中 的 这 标 决 策 树 只 有 4 片 树 叶 ， 所 以 通过 手动 的 方式 就 可 以 进行 建 模 。 但 是 如 果 样 本 的 
特征 特别 多 ， 就 不 得 不 使 用 机 器 学 习 的 办 法 来 进行 建 模 了 。 


6.1.2 ”决策 树 的 构建 


下 面 我 们 再 次 使 用 酒 的 数据 集 来 演示 一 下 决策 树 的 构建 ， 还 记得 在 第 2 章 做 的 实验 
吗 ? 下 面 我 们 先 载 入 酒 的 数据 集 ， 然 后 将 它 做 成 训练 集 和 数据 集 ， 输 入 代码 如 下 : 


# 导 入 numpy 

import numpy as np 

SAARIA 

import matplotlib.pyplot as plt 


ROS aesan ARONI a 


from matplotlib.colors import ListedColormap 

# 导 入 tree 模 型 和 数据 集 加 载 工具 

from sklearn import tree, datasets 

# 导 入 数据 集 拆 分 工具 

fron зКІіеагп.тоде1 selection import train test split 
wine = datasets.load wine () 

# 只 选取 数据 集 的 前 两 个 特征 

Xx = wine.data[:,:2] 

y = wine.target 

# 将 数据 集 拆 分 为 训练 集 和 测试 集 


X train, X безі, у Crain; у безі = Сгатп test зр11с (Х,у) 


现在 完成 了 数据 集 的 准备 ， 开 始 用 决策 树 分 类 器 进行 分 类 。 
为 了 便于 用 图 形 进行 演示 ， 我 们 仍然 只 选取 了 数据 集中 样本 的 前 两 个 特征 。 


接 下 来 ， 输 入 代码 如 下 : 
# 设 定 决策 树 分 类 器 最 大 深度 为 1 


clf = tree.DecisionTreeClassifier (шах depth=1) 
# 拟 合 训 练 数据 集 


it el стати, у Crain) 
运行 代码 ， 会 得 到 如 图 6-2 所 示 的 结果 。 
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62 ”决策 树 模型 的 全 部 参数 


【 结果 分 析 ] Jupyter Notebook 把 分 类 器 的 参数 返回 ， 这 些 参数 中 ， 我 们 先 关 注 其 中 
之 一 ， 就 是 max_depth 参数 。 这 个 参数 指 的 是 决策 树 的 深度 ， 也 就 是 我 们 在 玩 “ 读 心 术 ?” 
游戏 的 时 候 ， 所 问 的 问题 的 数量 ， 问 题 数量 越 多 ， 就 代表 决策 树 的 深度 越 深 。 现 在 我 们 
使 用 的 最 大 深度 是 1， 所 以 max_depth = 1. 

现在 看 看 分 类 器 的 表现 如 何 ， 我 们 把 图 形 画 出 来 ， 输 入 代码 如 下 : 

# 定 义 图 像 中 分 区 的 颜色 和 散 点 的 颜色 


стар light = ListedColormap (| "#ЕЕАААА", "#ААЕЕАА", "#ААААЕЕ" |) 
стар bold = 1ізіеасо1огтар (| "#ЕЕО000", "#00ЕЕО0О", "#0000ЕЕ! |) 


# 分 别 用 样本 的 两 个 特征 值 创 建 图 像 和 横 轴 和 纵 轴 

х тіп, х пах = X train[:, 0] .min() - 1, X train[:, 0] .max() + 1 

у піп, у шах = X ёгаіп[:, 11.шп() - 1, Х Егати !:, 1) .шах() + 1 

хх, уу = пр.тезһагіа (пр.агапде (х тіп, х max, -02) ， 
пр.агапде (у тіп, у тах, .02)) 

а = сІЁ.ргеаісі (пр.с |хх.гауе1 (), уу. гауе1 ()]) 


ЭХЕ 


运行 代码 ， 会 得 到 结果 如 图 6-3 То. 


Classifier: (тах depth=1 ) 


11 12 13 14 15 
6-3 max_depth = 1 时 的 分 类 结果 
【 结果 分 析 】 很 显然 ， 最 大 深度 等 于 1 时 分 类 器 的 表现 肯定 不 会 太 好 ， 分 类 器 只 分 
了 两 类 。 我 们 需要 加 大 深度 试 试看 结果 会 有 什么 变化 。 
输入 代码 如 下 : 


这 次 我 们 让 max_depth = 3， 同 样 再 进行 绘图 ， 输 入 代码 如 下 : 
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FOR ”决策 树 与 随机 森林 一 一 会 玩 读 心 ”的 丰 关 


运行 代码 ， 将 得 到 如 图 6-4 所 示 的 结果 。 
Classifier: (тах depth=3 ) 


11 12 13 14 15 
6-4 тах дерһ = 3 时 分 类 结果 
【 结果 分 析 】 现 在 我 们 看 到 ， 当 决策 树 最 大 深度 设 为 3 的 时 候 ， 分 类 器 能 够 进行 3 
个 分 类 的 识别 ， 而 且 大 部 分 数据 点 都 进入 了 正确 的 分 类 ， 当 然 还 有 一 小 部 分 数据 点 的 分 
类 是 错误 的 ， 接 下 来 我 们 进一步 调整 max_depth 的 值 ， 看 会 有 怎样 的 变化 。 
输入 代码 如 下 : 


这 次 我 们 把 max_depth 的 值 设 为 5， 继续 使 用 绘图 的 代码 如 下 : 


运行 代码 ， 会 得 到 如 图 6-5 所 示 的 结果 。 
Classifier: (тах depth=5 ) 


11 12 13 14 15 
6-5 тах дерш- 5 时 的 分 类 结果 


【 结果 分 析 】 现 在 可 以 看 到 ， 分 类 器 的 表现 进一步 提升 了 。 它 在 更 加 努力 地 把 每 一 
个 数据 点 放 入 正确 的 分 类 当中 。 
可 能 很 多 读者 朋友 会 感到 好 奇 ， 在 这 个 过 程 中 ， 决 策 树 在 每 一 层 当 中 都 做 了 哪些 事 
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情 呢 ? 我 们 可 以 用 一 个 名 叫 graphviz 的 库 来 展示 一 下 这 个 过 程 ， 盲 先 需要 安装 这 个 库 。 
在 命令 提示 符 中 输入 : 


pip install graphviz 
graphviz 只 是 帮助 我 们 演示 决策 树 的 工作 过 程 , 对 于 读者 来 说 , 安装 它 并 不 是 必须 的 。 


graphviz 的 安装 很 快 就 会 完成 ， 我 们 现在 就 开始 在 Jupyter notebook 中 用 它 来 将 决策 
树 的 工作 流程 展示 出 来 ， 输 入 代码 如 下 : 


# 导 入 graphviz 工 具 

import graphviz 

# 导 入 决策 树 中 输出 graphviz 的 接口 

from sklearn.tree import export graphviz 

# 选 择 最 大 深度 为 3 的 分 类 模型 

export graphviz (с1#2, out file="wine.dot", class names=wine.target names, 
feature names=wine.feature names[:2], impurity=False, filled=True) 
# 打 开 一 个 dot 文件 

with ореп ("и1пе.дос") аз Е: 

dot graph = Е.геадйд() 

# 显 示 dot 文 件 中 的 图 形 

дгарпу1 2 .бопгсе (ао graph) 


运行 代码 ， 将 得 到 如 图 6-6 所 示 的 结果 。 


асоо!<- 12.745 
запр!ез- 133 


value=[41,53,39] 
class=class_1 


True False 


malic acid2.445 malic acid2.235 
затр!ез-53 затр!ез-80 
value=[0,45,8] value=[41,8,31] 
class=class_1 class=class_0 


alcohol S 12.49 alcohol S£ 12.12 alcohol S< 1.54 alcohol £5.42 
samples=41 samples=12 samples=46 samples=34 
value=[0,39,2] value=[0,6,6] value=[36,6,4] value=[5,2,27] 
class=class_1 class=class_1 class=class_0 class=class_2 


samples=33 samples=8 samples=4 samples=8 samples=6 samples=40 samples=23 samples=1 
value=[0,33,0] || value=[0,6,2] value=[0,4,0] value=[0,2,6] value=[1,4,1] | | value=[35,2,3] | | уаіџе=[5,1,27] || value=[0,1,0] 
с1аз5--с1а88 1 class=class_1 class=class_1 class=class_2 class=class_1 class=class_0 class=class_2 class=class_1 


66 决策 树 的 分 类 过 程 分 析 


为 了 控制 图 片 不 要 太 大 ， 我 们 选择 了 用 max_depth=3 的 分 类 器 来 绘制 图 形 ， 这 样 
可 以 方便 大 家 观看 。 


深入 浅 出 Python 机 器 学 习 


【 结果 分 析 】 图 6-6 非常 清晰 地 展现 了 决策 树 是 如 何 进行 预测 的 ， 这 种 展示 方法 非 
常 便于 我 们 向 非 专 业 人 士 来 解释 算法 是 如 何 进行 工作 的 。 先 从 决策 树 的 根部 开始 看 起 ， 
第 一 个 条 件 是 酒精 含量 小 于 或 等 于 12.745, samples = 133 指 在 根 节点 上 ， 有 133 个 样本 。 
Value =[41, 53, 39] 是 指 有 41 个 样本 属于 class 0, 53 个 样本 属于 class_1， 其 余 39 个 样 
本 属于 class_2。 接 下 来 我 们 跟着 树枝 一 起 前 进 ， 在 酒精 度 小 于 或 等 于 12.745 这 个 条 件 为 
True 的 情况 下 ， 决 策 树 判 断 分 类 为 class_1， 如 果 是 False， 则 判断 为 class_0， 这 样 到 下 
一 层 ， 判 断 为 class_1 的 样本 共有 53 个 ， 而 判断 为 class_0 的 样本 则 有 80 个 ， 而 再 下 一 
层 则 对 酒 的 苹果 酸 含量 进行 判断 ， 进 一 步 对 样本 进行 分 类 。 左 边 class_1 的 分 文 的 判断 
条 件 是 苹果 酸 含量 小 于 或 等 于 2.445， 如 果 为 True， 则 再 判断 酒精 含量 是 否 小 于 或 等 于 
12.49， 如 果 为 False 则 判断 酒精 含量 是 否 低 于 12.12， 依 此 类 推 ， 直 到 将 样本 全 部 放 进 3 
个 分 类 当中 。 


6.1.3 决策 树 的 优势 和 不 足 


相 比 其 他 算法 , 决策 树 有 一 个 非常 大 的 优势 , 就 是 可 以 很 容易 地 将 模型 进行 可 视 化 ， 
就 像 我 们 在 图 6-5 中 所 做 的 一 样 。 这 样 就 可 以 让 非 专业 人 士 也 可 以 看 得 明白 。 男 外 ， 由 
于 决策 树 算 法 对 每 个 样本 特征 进行 单独 处 理 ， 因 此 并 不 需要 对 数据 进行 转换 (数据 转换 
的 概念 我 们 会 在 第 10 章 为 大 家 介绍 ) 。 这 样 一 来 ， 如 果 使 用 决策 树 算法 的 话 ， 我 们 几乎 
不 需要 对 数据 进行 预 处 理 。 这 也 是 决策 树 算法 的 一 个 优点 。 

当然 ， 决 策 树 算法 也 有 它 的 不 足 之 处 一 一 即便 我 们 在 建 模 的 时 候 可 以 使 用 类 似 max_ 
depth 或 是 max_leaf_nodes 等 参数 来 对 决策 树 进行 预 前 村 处 理 ， 但 它 还 是 不 可 避免 会 出 现 
过 拟 合 的 问题 ， 也 就 让 模型 的 泛 化 性 能 大 打折 扣 了 。 

为 了 避免 过 拟 合 的 问题 出 现 ， 可 以 使 用 集合 学 习 的 方法 ， 也 就 是 我 们 下 面 要 介绍 
的 一 一 随机 森林 算法 。 


6.2 随机 森林 


常言 道 ， 不 要 为 了 一 棵 树 放弃 一 片 森林 。 这 人 句 话 在 机 器 学 习 算 法 方面 也 是 非常 正确 
的 ,虽然 决策 树 算法 简单 易 理解 , 而 且 不 需要 对 数据 进行 转换 ,但 是 它 的 缺点 也 很 明显 一 一 
决策 树 往 往 容易 出 现 过 拟 合 的 问题 。 不 过 这 难 不 倒 我 们 ， 因 为 我 们 可 以 让 很 多 树 组 成 团 
队 来 工作 ， 也 就 是 一 一 随机 森林 。 


污 6 章 ”决策 树 与 随机 森林 一 一 会 玩 读 上 ”的 算 尖 


6.2.1 ”随机 和 森林 的 基本 概念 


先 来 一 段 比较 官方 的 解释 : 随机 森林 有 的 时 候 也 被 称 为 是 随机 决策 森林 ， 是 一 种 集 
合 学 习 方法 ， 既 可 以 用 于 分 类 ， 也 可 以 用 于 回归 。 而 所 谓 集 合 学 习 算 法 ， 其 实 就 是 把 多 
个 机 器 学 习 算法 综合 在 一 起 ， 制 造 出 一 个 更 加 大 模型 的 意思 。 这 也 就 很 好 地 解释 了 为 什 
么 这 种 算法 称 为 随机 森林 了 ， 如 图 6-7 所 示 ， 因 为 它 “ 有 很 多 树 ” 嘛 ! 


6-7 随机 森林 的 原理 


在 机 器 学 习 的 领域 ， 其 实 有 很 多 中 集合 算法 ， 目 前 应 用 比较 广泛 的 就 包括 随机 森林 
(Random Forests) 和 梯度 上 升 决策 树 (Gradient Boosted Decision Trees, СВОТ) 。 本 
书 主要 讲 的 是 随机 森林 算法 。 

前 面 我 们 提 到 ， 决 策 树 算法 很 容易 出 现 过 拟 合 的 现象 。 那 么 为 什么 随机 森林 可 以 解 
决 这 个 问题 呢 ? 因为 随机 和 森林 是 把 不 同 的 几 标 决 策 树 打包 到 一 起 ， 每 棵 树 的 参数 都 不 相 
同 ， 然 后 我 们 把 每 棵 树 预测 的 结果 取 平 均值 ， 这 样 即 可 以 保留 决策 树 们 的 工作 成 效 ， 又 
可 以 降低 过 拟 合 的 风险 。 这 其 实 也 是 可 以 用 数学 方法 推导 出 来 的 , 不 过 我 们 一 如 既往 地 ， 
不 会 讨论 数学 公式 ， 接 下 来 直接 进入 随机 森林 的 构建 环节 。 


6.2.2 ”随机 森林 的 构建 


这 次 我 们 继续 用 在 决策 树 中 来 展示 酒 的 数据 集 , 在 Jupyter Notebook 中 输入 代码 如 下 : 
# 导 入 随机 森林 模型 


from sklearn.ensemble import RandomForestClassifier 


载 入 红酒 数据 集 


wine = datasets.- load міпе () 
# 选 择 数 据 集 前 两 个 特征 


X = wine.datal[:,:2] 


089 


у = wine.target 
ОИСИ А 
train, X сезі, у Erain, у Cest = Erain Eest зр1ії (х,у) 
# 设 定 随机 森 标 中 有 6 棵 树 
forest = RandomForestClassifier (п estimators=6,random state=3) 
# 使 用 模型 拟 合 数据 


forest.fit (X train, у train) 


运行 代码 ， 会 得 到 结果 如 图 6-8 所 示 。 


图 6-8 ”随机 森林 的 模型 参数 


【 结果 分 析 】 可 以 看 到 ， 随 机 森林 问 我 们 返回 了 包含 其 自 喘 全 部 参数 的 信息 ， 让 我 
们 重点 看 一 下 其 中 几 个 必要 重要 的 参数 。 

首先 是 bootstrap 参数 ， 代 表 的 是 bootstrap sample， 也 就 是 “有 放 回 抽样 ”的 意思 ， 
指 每 次 从 样本 空间 中 可 以 重复 抽取 同一 个 样本 《因为 样本 在 第 一 次 被 抽取 之 后 又 被 放 回 
ET) ， 形 象 一 点 来 说 ， 如 原始 样本 是 [' 苹果 '， 西瓜 '，' ЯК", ' 桃子 ']， 那 么 
经 过 bootstrap sample 重 构 的 样本 就 可 能 是 [西瓜 '， ' 西瓜 '，' 9% N‘, 桃子 ']， 还 
有 可 能 是 [' 苹果 '，' FR ', 桃子 '， ' 桃子 ']。Bootstrap sample 生成 的 数据 集 和 原始 
数据 集 在 数据 量 上 是 完全 一 样 的， 但 由 于 进行 了 重复 采样 ， 因 此 其 中 有 一 些 数 据点 会 丢失 。 

看 到 这 里 ， 读 者 可 能 会 问 为 什么 要 生成 bootstrap sample 数据 集 。 这 是 因为 通过 重新 
生成 数据 集 ， 可 以 让 随机 森林 中 的 每 一 棵 决策 树 在 构建 的 时 候 ， 会 彼此 之 间 有 些 差异 。 
再 加 上 每 棵 树 的 节点 都 会 去 选择 不 同 的 样本 特征 ， 经 过 这 两 步 动作 之 后 ， 可 以 完全 肯定 
随机 森林 中 的 每 棵 树 都 不 一 样 ， 这 也 符合 我 们 使 用 随机 森林 的 初衷。 

接 下 来 模型 会 基于 新 数据 集 建 立 一 棵 决策 树 ， 在 随机 森林 当中 ， 算 法 不 会 让 每 棵 决 
策 树 都 生成 最 佳 的 节点 ， 而 是 会 在 每 个 节点 上 随机 地 选择 一 些 样本 特征 ， 然 后 让 其 中 之 
一 有 最 好 的 拟 合 表现 。 在 这 里 ， 我 们 是 用 max_features 这 个 参数 来 控制 所 选择 的 特征 数 
量 最 大 值 的 ， 在 不 进行 指定 的 情况 下 ， 随 机 森林 默认 目 动 选择 最 大 特征 数量 。 

而 关于 max_features 参数 的 设置 ， 还 是 有 些 讲究 的 。 假 如 把 max_features 设置 为 样 
本 全 部 的 特征 数 n_features 就 意味 看 模型 会 在 全 部 特征 中 进行 般 选 ， 这 样 在 特征 选择 这 
一 步 ， 就 没有 随机 性 可 言 了 。 而 如 果 把 max_features 的 值 设 为 1， 就 意味 着 模型 在 数据 特 
征 上 完全 没有 选择 的 余地 ， 只 能 去 寻找 这 1 个 被 随机 选 出 来 的 特征 回 量 的 阀 值 了 。 所 以 
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说 ，max_features 的 取 值 越 高 ， 随 机 森林 里 的 每 一 棵 决策 树 就 会 “长 得 更 像 ”， 它 们 因为 
有 更 多 的 不 同 特征 可 以 选择 , 也 就 会 更 容易 拟 合 数据 ; КО, 如 果 max_features 取 值 越 低 ， 
就 会 迫使 每 棵 决策 树 的 样子 更 加 不 同 ， 而 且 因 为 特征 太 少 ， 决 策 树 们 不 得 不 制造 更 多 节 
点 来 拟 合 数 据 。 

另外 还 有 一 个 要 强调 的 参数 ， 是 n_estimators， 这 个 参数 控制 的 是 随机 森林 中 决策 树 
的 数量 。 在 随机 森林 构建 完成 之 后 ， 每 棵 决策 树 都 会 单独 进行 预测 。 如 果 是 用 来 进行 回 
归 分 析 的 话 ， 随 机 森林 会 把 所 有 决策 树 了 预测 的 值 取 平均 数 ， 如 果 是 用 来 进行 分 类 的 话 ， 
在 森林 内 部 会 进行 “投票 ”， 每 棵 树 预测 出 数据 类 别 的 概率 ， 比 如 其 中 一 棵 树 说 ，“ 这 
ЛЕН 80% 属于 са55 1”， 另 外 一 棵 树 说 ，“ 这 瓶 酒 60% 属于 class 2”， 随 机 森林 会 把 
这 些 概率 取 平 均值 ， 然 后 把 样本 放 入 概率 最 高 的 分 类 当中 。 

下 面 我 们 用 图 像 直 观 地 看 一 下 随机 森林 分 类 的 表现 ， 输 入 代码 如 下 : 

# 定 义 图 像 中 分 区 的 颜色 和 散 点 的 颜色 


стар light = ListedColormap (| "#ЕЕАААА", "#ААЕЕАА", "#ААААЕЕ" |) 
стар bold = ListedColormap (|"#ЕЕО000", "#00ЕЕО0", "#0000ЕЕ!|) 


# 分 别 用 样本 的 两 个 特征 值 创 建 图 像 和 横 轴 和 纵 轴 

х min, х шах = X ёгаіп[:, 0|.шп() - 1, X ёгаіп[:, 0|.шах() + 1 

у тіп, у шах = X ёгаіп[:, 1].тіп() - 1, X Ега1п|:, 1) .шах() + 1 

хх, уу = пр.шезпагта (пр.агапде (х тіп, х max, .02), 
пр.агапде (у тіп, у max, .02)) 

а = Ғогезі.ргеаісі (пр.с [хх.гауе1 (), уу-гате1 () |) 


# 给 每 个 分 类 中 的 样本 分 配 不 同 的 颜色 

г = 2. гезһаре (xx.shape) 

plt .figure () 

plt.pcolormesh (xx, yy, Z, cmap=cmap light) 


# 用 散 点 把 样本 表示 出 来 
р1с.зсагтег (Х[:, 0], Х[:, 11, с=у, стар=стар bold, еддесо1ог-"К", 3-20) 
ріё.хІім(хх.тіп(), хх.тах ()) 


plt.ylim(yy.min(), уу-шах()) 
plt.title("Classifier:RandomForest") 


рі. зроми () 
运行 代码 ， 会 得 到 如 图 6-9 的 结果 。 
【 结果 分 析 】 如 果 把 图 6-9 和 图 6-5 进行 对 比 ， 可 以 发 现 随机 森林 所 进行 的 分 类 要 
更 加 细腻 一 些 ， 对 训练 数据 集 的 拟 合 更 好 。 读 者 朋友 可 以 自己 试 试 调节 n_estimator 参数 
和 random_state 参数 ， 看 看 分 类 器 的 表现 会 有 怎样 的 变化 。 


深入 浅 出 Python а 


Classifier: (тах depth=5 ) 
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6-9 ”随机 森林 对 酒 数据 集 进 行 的 分 类 


6.2.3 ”随机 森林 的 优势 和 不 足 


目前 在 机 器 学 习 领 域 , 无 论 是 分 类 还 是 回归 ， 随 机 森林 都 是 应 用 最 广泛 的 算法 之 一 。 
可 以 说 随机 和 森林 十 分 强大 ， 使 用 决策 树 并 不 需要 用 户 过 于 在 意 参 数 的 调节 。 而 且 ， 和 决 
策 树 一 样 ， 随 机 森林 算法 也 不 要 求 对 数据 进行 预 处 理 。 

从 优势 的 角度 来 说 , 随机 森林 集成 了 决策 树 的 所 有 优点 , 而 且 能 够 弥补 决策 树 的 不 足 。 
但 也 不 是 说 决策 树 算法 就 被 彻底 抛弃 了 。 从 便于 展示 决策 过 程 的 角度 来 说 ， 决 策 树 依旧 
表现 强悍 。 尤 其 是 随机 森林 中 每 棵 决策 树 的 层级 要 比 单独 的 决策 树 更 深 ， 所 以 如 果 需 要 
问 非 专业 人 士 展示 模型 工作 过 程 的 话 ， 还 是 需要 用 到 决策 树 的 。 

还 有 ， 随 机 森林 算法 支持 并 行 处 理 。 对 于 超大 数据 集 来 说 ， 随 机 森林 会 比较 耗 时 〈 毕 
竟 要 建立 很 多 决策 树 ) ， 不 过 我 们 可 以 用 多 进程 并 行 处 理 的 方式 来 解决 这 个 问题 。 实 现 
方式 是 调节 随机 森林 的 n_jobs 参数 ， 记 得 把 n_jobs 参数 数值 设 为 和 CPU 内 核 数 一 致 ， 
比如 你 的 CPU 内 核 数 是 2， 那 么 n_jobs 参数 设 为 3 或 者 更 大 是 没有 意义 的 。 当 然 如 果 你 
搞 不 清楚 上 自己 的 СРО 到 底 就 多 少 内 核 ， 可 以 设置 n_jobs = -1， 这 样 随机 森林 会 使 用 CPU 
的 全 部 内 核 ， 速 度 就 会 极 大 提升 了 。 

需要 注意 的 是 ， 因 为 随机 森林 生成 每 棵 决策 树 的 方法 是 随机 的 (所 以 名 字 叫 随机 和 森 
林 嘛 ) ， 那 么 不 同 的 random_state 参数 会 导致 模型 完全 不 同 ， 所 以 如 果 不 锅 望 建 模 的 结 
果 太 过 于 不 稳定 ， 一 定 要 固化 random_state 这 个 参数 的 数值 。 

不 过 ， 虽 然 随机 森林 有 诸多 优点 ， 尤 其 是 并 行 处 理 功 能 在 处 理 超大 数据 集 时 能 提供 
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民 好 的 性 能 表现 。 但 它 也 有 不 足 ， 例 如 ， 对 于 超 高 维 数 据 集 、 黎 牙 数 据 集 等 来 说 ， 随 机 
穆 林 就 有 点 提 社 见 有 村 了， 在 这 种 情况 下 ， 线 性 模型 要 比 随 机 森林 的 表现 更 好 一 些 。 还 有 ， 
随机 森林 相对 更 消耗 内 存 ， 速 度 也 比 线性 模型 要 慢 ， 所 以 如 果 程序 希望 更 节省 内 存 和 时 
间 的 话 ， 建 议 还 是 选择 线性 模型 。 


6.3 ”随机 和 森林 实例 一 一 要 不 要 和 相 杀 对 象 进 一 步 发 展 


在 了 解 了 决策 树 的 基本 概念 和 工作 原理 之 后 ， 我 们 言 归 正 传 ， 让 小 C 用 决策 树 算法 
ЖАЛО 拿 个 主意 ， 到 底 要 不 要 和 相亲 对 象 进一步 发 展 呢 ? 小 С УБ А, АЛИА 
建 模 ， 突然 ， 他 灵光 乍 现 ， 有 了 主意 5 


6.3.1 数据 集 的 准备 


网 上 有 一 个 著名 的 数据 集 一 一 成 年 人 数据 集 ， 包 括 了 数 万 条 样本 数据 。 其 中 ， 样 本 
特征 包括 年 龄 、 工 作 单 位 性 质 、 统 计 权 重 、 学 历 、 受 教育 时 长 、 婚 姻 状 况 、 职 业 、 家 庭 情 况 、 
种 族 、 性 别 、 资 产 所 得 、 资 产 损 失 、 每 周 工 作 时 长 、 原 籍 、 收 入 〈 大 于 5 万 或 者 小 于 等 
于 5 万 ) 。 这 个 数据 集 用 来 帮 小 Q 做 决策 真是 再 合适 不 过 了 。 

于 是 小 C 去 下 载 了 这 个 数据 集 ， 下 载 地 址 如 下 : 

http://archive.ics.uci.edu/ml/machine-learning-databases/adult/ 

下 载 好 的 数据 集 是 даа 格式 的 文件 ， 不 过 不 用 担心 ， 它 其 实 就 是 一 个 csv 文件 ， 我 
们 可 以 把 它 重 名 为 adult.csv， 这 样 可 以 直接 用 Excel 打开 。 现 在 来 看 一 下 打开 后 的 样子 ， 
如 图 6-10 所 示 。 


em ~ в . = Ы ғ Ы . в == за -Fe = 


а =» =» 
итар тр 1 
_ з оо... .... 


ГГГГГГГЕГТ 


= н 


вло Adult 数据 集 前 十 条 数据 

从 图 6-10 中 ， 可 以 看 出 ， 从 左 数 第 一 列 是 样本 人 和 群 的 年 龄 ; 第 二 列 是 样本 人 和 群 的 工 

作 单 位 性 质 ; 第 三 列 是 fnlwgt 一 一 fnal weight， 是 一 个 统计 用 的 权重 值 ， 然 后 依次 是 学 历 、 

受 教 育 时 长 、 婚 姻 状 况 、 职业、 家庭 情 况 、 种族、 性别 、 资产 所 得 、 资 产 损 失 、 周 工作 时 长 、 
原 国 籍 和 收入 。 下 面 我 们 在 Jupyter Notebook 里 载 入 这 个 数据 集 ， 输 入 代码 如 下 : 
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# 导 入 pandas 库 

import pandas as pd 

# 用 pandas 打 开 csv 文 件 

data = pd.read сзу ('ааџіё.сзу', header=None, index col=False, 

пашез- | "#6", "ат", ХЕ", "2", ' 受 教育 时 长 '， 

"АА, В", 家 庭 情况 ',' 种 族 ',' 性 别 ' ， 
аи "АРЗАЖ", ВТТЕНК", АЯ", 
1 A ' 1 ) 

# 为 了 方便 展示 ， 我 们 选取 其 中 一 部 分 数据 

дата lite = data[[' 年 龄 ', ' 单 位 性 质 ', ' 学 历 ',' 性 别 ', ' 周 工作 时 长 '， 

T 职业 т + т 收入 T ] ] 
# 下面 看 一 下 数据 的 前 5 行 是 不 是 我 们 想 要 的 结果 
display (data_lite.head()) 


运行 代码 ， 会 得 到 结果 如 图 6-11 тт. 
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图 6-11 经 过 筛选 的 数据 


39 为 了 方便 演示 ， 我 们 只 选 了 年 龄 、 单 位 性 质 、 学 历 、 性 别 、 周 工作 时 长 、 职 业 和 收 
入 等 特征 。 


6.3.2 ”用 get_dummies 处 理 数据 


看 到 这 里 ， 可 能 有 读者 朋友 会 问 一 个 问题 ， 在 现在 这 个 数据 集中 ， 单 位 性 质 、 学 历 、 
性 别 、 职 业 还 有 收入 都 不 是 整 型 数值 ， 而 是 字符 串 ， 怎 么 使 用 我 们 现在 所 学 的 知识 进行 
建 模 呢 ?这 里 我 们 要 用 到 pandas 的 一 个 功能 ， 叫 作 get_dummies， 它 可 以 在 现 有 的 数据 
集 上 添加 虚拟 变量 ， 让 数据 集 变 成 可 以 用 的 格式 。 这 个 方法 我 们 在 后 面 的 章节 还 会 详细 
讲解 ， 现 在 我 们 先 使 用 它 就 好 了 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 

# 使 用 get dummies 将 文本 数据 转化 为 数值 


data dummies = pd.get dummies (data lite) 

# 对 比 样本 原始 特征 和 虚拟 变量 特征 

ргапЕЦ 样本 原始 特征 : Ха", „1131 (даса lite -columns "\п') 
print (' 虚 拟 变 量 特征 : \n',1ist(data dummies.columns)) 


运行 代码 ， 将 得 到 结果 如 图 6-12 所 示 。 
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图 6-12 数据 集中 原始 特征 和 虚拟 变量 特征 的 对 比 


【 结果 分 析 】 大 家 可 以 看 到 ，get_dummies 很 聪明 ， 它 把 字符 串 类 型 的 特征 拆 分 开 ， 
如 把 单位 性 质 分 为 “单位 性 质 _Federal-gov”“ 单 位 性 质 _Local-gov ”等 ， 如 果 样 本 人 
群 的 工作 单位 是 联邦 政府 ， 那 么 “单位 性 质 _Federal-gov” 这 个 特征 的 值 就 是 1， 而 其 他 
的 工作 单位 性 质 特征 值 就 会 是 0, 这 样 就 把 字符 串 巧 妙 地 转换 成 了 0 和 1 这 两 个 整 型 数值 。 


下 面 我 们 看 下 进行 get_dummies 后 数据 集 的 样子 ， 用 如 下 的 代码 显示 前 5 行 数据 : 
# 显 示 数据 集中 的 前 5 行 


data dummies.head () 


运行 代码 ， 将 会 得 到 结果 如 图 6-13 所 示 。 
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6-13 经 过 get_dummies 处 理 的 数据 集 


从 图 6-13 中 可 以 看 出 ， 新 的 数据 集 已 经 扩充 到 了 46 列 ， 原 因 就 是 get_dummies 把 


原 数 据 集 的 特征 拆 分 成 了 很 多 列 。 现 在 我 们 把 各 列 分 配给 特征 向 量 半 和 分 类 标签 y， 输 
入 代码 如 下 : 
# 定 义 数据 集 的 特征 值 


features = data dummies.loc[:," 年 龄 ' :， 职业 ТгапзрогЕ-поу1па" | 
# 将 特征 数值 赋值 为 X 

Х = features.values 

# 将 收入 大 于 50k 作 为 预测 目标 


y = data dummies[' 收 入 >50K'] .values 
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Printi ynna] 
print (' 代 码 运 行 结果 : ') 


Drint( ) 
# 打 印 数据 形态 

print (' 特 征 形态 : {} 标签 形态 : {}' .format (X.shape, y.shape)) 
ргіпіё {Nn=====— = 


ргіпі ( "\п\п\п') 

在 这 段 代码 中 , 我 们 让 特征 为 “年 龄 ”这 一 列 到 “职业 _Transportation-moving” 这 一 列 ， 
而 标签 了 是 “收入 _>50k” 这 一 列 ， 如 果 大 于 50k， 则 y=1, RZ у=0. ЕПК, S 
到 结果 如 图 6-14 所 示 。 


B E, ai ЖИРО стр.) 


6-14 ”数据 集中 的 特征 形态 和 标签 形态 


6.3.3 ARRA АА АН FW 


现在 可 以 清晰 看 出 ， 数 据 集中 共有 32561 条 样本 数据 ， 每 条 数据 有 44 个 特征 值 ， 下 
面 就 到 了 大 家 最 熟悉 的 地 方 一 一 将 数据 集 拆 分 成 训练 集 和 测试 集 ， 然 后 用 决策 树 算法 进 
行 建 模 ， 并 对 模型 进行 评估 。 输 入 代码 如 下 : 

# 将 数据 及 拆 分 为 训练 集 和 测试 集 


X train, X безі, у Erain, у езі = train test SELL у, гапаот зіаёе=0) 
# 用 最 大 深度 为 5 的 随机 森林 拟 合 数据 

go dating tree = tree.DecisionTreeClassifier (шах depth=5) 

go dating tree.fit(X train,y train) 

Printi innn] 

print (' 代 码 运 行 结 果 : ') 


De 模型 得 分 :1:.2Е|" .Еогша: (до dating ігее.зсоге (Х testy test}))) 


ргіпі ( "\п\п\п') 


运行 代码 ， 会 得 到 如 图 6-15 所 示 的 结果 。 


图 6-15 随机 森林 的 模型 得 分 
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【 结果 分 析 】 可 以 看 到 ， 基 于 训练 数据 集训 练 的 模型 在 测试 集 得 到 了 0.8 的 评分 ， 
可 以 说 还 是 可 以 接受 的 ， 也 就 是 说 这 个 模型 的 预测 准确 率 在 80%， 相 信和 完全 可 以 给 小 Q 
提供 足够 的 参考 了 。 

通过 小 Q 的 描述 ， 我 们 知道 Mr. Z 年 龄 是 37 岁 ， 在 省 机 关 工 作 ， 学 历 是 硕士 ， 性 别 
B AT) ， 每 周 工作 40 小 时 ， 职 业 是 文员 ， 现 在 我 们 把 Мг. Z 的 数据 进行 输入 ， 
并 用 模型 对 他 的 收入 进行 预测 。 输 入 代码 如 下 : 


# 将 Mr z 的 数据 输入 给 模型 

Mr 2 =[[37, 40,0,0,0,0 0,1 
еее егете P 

# 使 用 模型 做 出 预测 

dating dec = до дат1па ігее.ргейісії (Мг 2) 

peine Yonyon) 

print(' 代 码 运行 结果 : ') 


?0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1, 


= 


TE dating dec ==. 
print (" 大 胆 去 追求 真爱 吧 ， 这 哥们 月 薪 过 5 万 了 ! ") 
else: 


print (" 不 用 去 了 ， 不 满足 你 的 要 求 ") 
Printt” n\n\n’) 


运行 代码 ， 我 们 会 得 到 一 个 令 人 心 碎 的 结果 ， 如 图 6-16 Ре. 


6-16 模型 预测 小 О 是 否 应 该 与 Mr.Z 深入 交往 


【 结果 分 析 j 是 的 , 机 器 冷冰冰 地 告诉 小 Q 这 个 残酷 的 事实 , Mr Z 并 不 符合 她 的 要 求 。 
当然 ， 出 于 第 识 ， 我 们 也 能 清楚 省 机 关 的 文职 工作 人 员 的 收入 不 太 可 能 超过 5 万 ， 否 则 
反腐 工作 就 没什么 成 效 了 。 

本 节 中 用 到 的 adult 数据 集 其 实 是 从 美国 1994 年 人 口 普 查 数据 库 抽取 而 来 ， 而 且 


其 中 的 收入 指 的 是 年 收入 ， 并非 月 收入 。 我 们 只 是 用 这 个 数据 集 来 演示 决策 树 的 用 法 ， 
其 结论 对 我 们 真实 生活 场景 的 参考 意义 不 大 。 


以 上 是 使 用 决策 树 的 一 个 实例 ， 读 者 朋友 可 以 试看 用 同样 的 数据 集 ， 使 用 随机 森林 
算法 再 进行 一 过 预测 ， 看 看 结果 是 否 会 有 所 不 同 。 
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6.4 ОМА 


在 本 章 中 ， 我 们 先 设 定 了 一 个 问题 : 小 Q 要 不 要 和 相亲 对 象 进 一 步 交 往 。 基 于 这 个 
应 用 场景 我 们 介绍 了 决策 树 和 随机 森林 的 原理 、 用 法 ， 以 及 优势 不 足 等 。 在 掌握 了 这 两 
个 算法 之 后 ， 我 们 用 adult 数据 集训 练 了 决策 树 模型 ， 并 帮 小 Q 做 出 了 判断 ， 希 望 读者 
朋友 可 以 目 己 动手 试 试看 用 随机 森林 算法 再 进行 一 次 预测 ， 试 试看 调节 各 项 参数 对 结果 
有 什么 影响 。 

此 外 ， 除 了 上 述 我 们 讲解 的 功能 ， 决 策 树 和 随机 森林 还 有 一 个 特别 “体贴 ”的 功能 ， 
就 是 可 以 帮助 用 户 在 数据 集中 对 数据 特征 的 重要 性 进行 判断 。 这 样 一 来 ， 我 们 还 可 以 通 
过 这 两 个 算法 对 高 维 数据 集 进行 分 析 ， 在 诸多 特征 中 保留 最 重要 的 儿 个 ， 这 样 也 便于 我 
们 对 数据 进行 降 维 处 理 。 这 部 分 内 容 我 们 在 第 11 章 中 还 会 有 详细 的 讲解 。 

当然 ， 目 前 应 用 广泛 的 集成 算法 还 有 “梯度 上 升 决策 树 ” (Gradient Boosting 
Decision Trees, СВОТ) ， 限 于 篇 幅 ， 本 章 暂 不 详细 讲解 ， 感 兴趣 的 读者 朋友 也 可 以 到 
scikit-learn 官网 上 查看 相关 的 文档 。 
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第 7 章 支持 向 量 机 SVM-- 一 专 治 线性 不 TA 

从 图 7-2 中 我 们 已 经 可 以 感受 到 线性 模型 “ 深 深 的 绝望 ”了 ， 无 论 是 用 哪 一 条 直线 ， 
都 无 法 将 女生 的 情绪 进行 正确 的 分 类 。 在 这 种 情况 下 ， 我 们 说 样本 是 线性 不 可 分 的 。 那 
БАЙ? 是 不 是 就 真 的 束手无策 了 呢 ? 

不 要 怕 ! 我 们 有 强大 的 SVM 文 持 回 量 机 ， 它 的 核 函 数 功 能 可 以 帮助 到 我 们 。 现 在 
大 家 想象 一 下 ， 假 如 “开心 ”的 情绪 是 轻 球 了 球 的 ， 而 “不 开心 ”的 情绪 是 沉重 的 ， 我 们 
把 图 7-2 扔 到 水 里 ，“ 开 心 ” 就 会 漂浮 起 来 ， 而 “不 开心 ”就 会 沉 下 去 ， 变 成 图 7-3 所 
示 的 样子 。 


特征 0 
7-3 ”转换 之 后 的 女生 情绪 分 布 
从 图 7-3 中 ， 我 们 看 到 ， 经 过 处 理 之 后 的 数据 ， 很 容易 用 一 块 玻璃 板 将 两 种 心情 进 
行 分 类 了 。 如 果 从 正 上 方 同 下 看 ， 将 三 维 视图 还 原 成 二 维 ， 那 么 你 可 能 会 发 现 分 类 器 是 
图 7-4 的 样子 。 


特征 0 


7-4 二 维 视图 下 的 分 类 器 
如 果 这 样 看 起 来 的 话 , 这 一 点 也 不 像 是 线性 分 类 器 的 样子 了 。 而 刚才 我 们 通过 利用 “ 开 


心 ” 和 “不 开心 ”的 重量 差 实现 将 二 维 数据 变 成 三 维 的 过 程 ， 称 为 将 数据 投射 至 高 维 罕 
间 。 这 正 是 SVM 算法 的 核 函 数 (kernel trick) 功能 ， 在 SVM 中 用 得 最 普遍 的 两 种 把 数据 
投射 到 高 维 空间 的 方法 分 别 是 多 项 式 内 核 (Polynomial kernel) 和 径 向 基 内 核 (Radial basis 
function kernel, RBF) 。 其 中 多 项 式 内 核 比较 容易 理解 ， 它 是 通过 把 样本 原始 特征 进行 乘 
方 来 把 数据 投射 到 高 维 空间 ， 比 如 特征 1 乘 2 次 方 、 特 征 2 乘 3 次 方 ， 特 征 3 乘 5 次 方 等 。 
而 RBF 内 核 也 被 称 为 高 斯 内 核 (Gaussian kernel) ， 接 下 来 我 们 详细 介绍 一 下 RBF 内 核 。 


71.2 ”支持 癌 量 机 SVM 的 核 葬 数 


在 SVM 算法 中 ， 训 练 模型 的 过 程 实 际 上 是 对 每 个 数据 点 对 于 数据 分 类 决定 边界 的 
重要 性 进行 判断 。 也 就 是 说 ， 在 训练 数据 集中 ， 只 有 一 部 分 数据 对 于 边界 的 确定 是 有 帮 
助 的 ， 而 这 些 数据 点 就 是 正好 位 于 决定 边界 上 的 。 这 些 数据 被 称 为 “ 文 持 问 量 ” (support 
vectors) ， 这 也 是 “ 文 持 问 量 机 ”名 字 的 由 来 。 下 面 我 们 用 图 像 来 直观 理解 一 下 ， 在 


Jupyter Notebook 中 输入 代码 如 下 : 
# 导 入 numpy 


import numpy as np 

# 导 入 画图 工具 

import matplotliD pyplot аз plt 
# 导 入 支持 向 量 机 SVM 

from sklearn import svm 

# 导 入 数据 集 生成 工具 


from sklearn.datasets import make blobs 


+ 先 创建 50 个 数据 点 ， 让 它们 分 为 两 类 


X, у = make blobs (п samples=50, centers=2, random state=6) 


# 创建 一 个 线性 内 核 的 支持 向 量 机 模型 

clf = svm. SVC (Кегпе1='1іпеаг', С-1000) 
本 EX y) 

+ 把 数据 点 画 出 来 


р1с.зсагтег (Х[:, 0], Х[:, 11, с=у, 9=30° сшпар-р15.сш.Ра1гед) 


# 建 立 图 像 坐标 

ах = ріі.дса () 

Slin = ах.де х1ітм() 
ylim = ах.деї уШш() 


# 生 成 两 个 等 差 数列 

хх = пр.1іпзрасе (х1ім[0], х1ім[1], 30) 

уу = пр.1іпзрасе (у1ітм[0], у1ітм[1], 30) 

ҮҮ, ХХ = пр.шезпагт9 (уу, хх) 

ху = пр.узіаск ([ХХ.гауе1 (), ҮҮ.гауе1 () |).Т 

2 = clf.decision function (ху) . reshape (ХХ.зһаре) 


+ 把 分 类 的 决定 边界 画 出 来 
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ах.соптоиг (ХХ, ҮҮ, 2, со1огѕ='К'®, Іеуе13=[-1, 0, Tl, а1р1а-0.5, 
linestyles=['--', !-", '"—-']) 


ax.scatter (clf.support vectors |:, 0], clf.support vectors [:, 1], з3=100, 


linewidth=1, facecolors='none'!) 
plt-.show () 


运行 代码 ， 会 得 到 结果 如 图 7-5 его 


75 线性 内 核 的 SVM 分 类 器 


【 结果 分 析 】 从 图 7-5 中 ， 可 以 清晰 地 看 到 ， 在 分 类 器 两 侧 分 别 有 两 条 虚线 ， 那 些 
正好 压 在 虚线 上 的 数据 点 ,就 是 我 们 刚刚 提 到 的 文 持 问 量 ,而 本 例 使 用 的 这 种 方法 称 为 “最 
大 边界 间隔 超 平 面 ”(Maximum Margin Separating Нуреграпе) 。 指 的 是 说 中 间 这 条 实 线 (在 
高 维 数据 中 是 一 个 超 平面 ) ， 和 所 有 文 持 癌 量 之 间 的 距离 ， 都 是 最 大 的 。 


如 果 我 们 把 SVM 的 内 核 换 成 是 RBF, 会 得 到 怎样 的 结果 呢 ? 下 面 我 们 输入 代码 如 下 : 
+ 创建 一 个 RBF 内 核 的 支持 向 量 机 模型 


СТЕ roe = зуш.5УС (Кегпе1-"гЬЕ", С-1000) 
СЪЕ FOE- DELL у) 
+ 把 数据 点 画 出 来 


Bilt.scatter(lX[:s, 0], Х[:, 1], с=у, 3-30, сшпар-р15.сш.Ра1гед) 


# 建 立 图 像 坐标 

ах = pit -gca() 

xlim = ax.get xlim() 
ylim = ах.деї уШш() 


# 生 成 两 个 等 差 数 列 

жк = пр.1ъпазрасех? лш | 01, жали 11, 30) 

уу = пр.1іпзрасе (у1ім[0], у1іт[1], 30) 

ҮҮ, ХХ = пр.шезпагт9 (уу, хх) 

ху = пр.узіаскК ([ХХ.гауе1 (), ҮҮ.гауе1 () |).Т 

4 = clf rbf.decision function (ху) .reshape (XX. Shape) 
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+ 把 分 类 的 决定 边界 画 出 来 
ax.contour (ХХ, ҮҮ, Z, colors='k', levels=[-1, 0, 1], а1р1а-0.5, 
Il el 


ах.зсаСГег (сСТ1Е rbf.support vectors [:, 0], clf rbf.support vectors [:, 11, 
5=100, 

1іпеміаёһ=1, Ғасесо1огз='попе') 
рі. зһом () 


运行 代码 ， 这 次 得 到 的 结果 如 图 7-6 所 示 。 


7-6 RBF 内 核 的 SVM 分 类 器 


【 结果 分 析 】 从 图 7-6 中 ， 我 们 看 到 分 类 器 的 样子 变 得 完全 不 一 样 了 ， 这 是 因为 当 
我 们 使 用 RBF 内 核 的 时 候 ， 数 据点 之 间 的 距离 是 用 如 下 公式 来 计算 的 : 
kor Са: %) = exp (|х – 5) 
公式 中 的 和 司 代 表 两 个 不 同 的 数据 点 , m ||| 代表 两 个 点 之 间 的 欧 几 里 得 距离 。 
у (gamma) 是 用 来 控制 RBF 内 核 宽度 的 参数 ， 也 就 是 图 中 实 线 距离 两 条 虚线 的 距离 。 


7.2 SVM RASSE 


7.2.1 不 同 核 蝴 数 的 SVM 对 比 


在 这 里 要 特别 指出 的 是 ， 我 们 在 第 4 章 线 性 模型 中 ， 提 到 过 一 个 称 为 linearSVM 的 
算法 ， 实 际 上 ，linearSVM 就 是 一 种 使 用 了 线性 内 核 的 SVM 算法 。 不 过 linearSVM 不 文 
持 对 核 函 数 进行 修改 ， 因 为 它 默 认 只 能 使 用 线性 内 核 。 为 了 让 大 家 能 够 直观 体验 不 同 内 
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核 的 SVM 算法 在 分 类 中 的 不 同 表 现 ， 我 们 画 个 图 像 来 进行 展示 ， 在 Jupyter notebook 中 
输入 代码 如 下 : 


深入 浅 出 Python 机 器 学 习 


ах.зеі х1аре1 ("Ееатиге 0") 
ах.зес уТаре!1 ("Ееаёиге 1") 
ax.set хііскз (()) 


aX-Set уііскз (()) 
ах. зе зе (Есте) 
# 将 图 型 显示 出 来 
рі. зһом () 
运行 代码 ， 会 得 到 结果 如 图 7-7 所 示 。 
SVC with linear kernel LinearSVC (linear kernel) 
O 0 
Е Е 
O 2 
21 2 
Feature 0 Feature 0 
SVC with RBF kernel SVC with polynomial (degree 3) kernel 


司 


ва 
з 4 


Feature 1 
Feature 1 


Feature 0 Feature 0 
7-7 不 同 的 SVM 分 类 器 对 酒 数据 集 进 行 的 分 类 

【 结果 分 析 】 从 图 7-7 中 ， 我 们 可 以 看 到 线性 内 核 的 SVC 与 linearSVC 得 到 的 结果 
非常 近似 ， 但 仍然 有 一 点 点 差别 。 其 中 一 个 原因 是 linearSVC 对 L2 范 数 进行 最 小 化 ， 而 
线性 内 核 的 SVC 是 对 L1 范 数 进行 最 小 化 。 不 论 如 何 ，linearSVC 和 线性 内 核 的 SVC Е 
成 的 决定 边界 都 是 线性 的 ， 在 更 高 维 数据 集中 将 会 是 相交 的 超 平面 (请 读者 朋友 上 自行 想 
象 ) 。 而 RBF 内 核 的 SVC 和 polynomial 内 核 的 SVC 分 类 器 的 决定 边界 则 完全 不 是 线性 
的 ， 它 们 更 加 弹性 。 而 决定 了 它们 决定 边界 形状 的 ， 就 是 它们 的 参数 。 在 polynomial 内 
核 的 SVC 中 ， 起 决定 性 作用 的 参数 就 是 degree 和 正则 化 参数 C， 在 本 例 中 我 们 使 用 的 
degree 为 3， 也 就 是 对 原始 数据 集 的 特征 进行 乘 3 次 方 操作 。 而 在 RBF 内 核 的 SVC H, 
起 决定 作用 的 是 正则 化 参数 C 和 参数 gamma， 接 下 来 我 们 重点 介绍 一 下 RBF 内 核 SVC 
的 gamma 2:01 Пт. 


7.2.2” 文 持 回 量 机 的 gamma 参 数 调 攻 
首先 让 我 们 看 一 下 不 同 的 gamma 值 对 于 RBF 内 核 的 SVC 分 类 器 有 什么 影响 ， 在 
Jupyter Notebook 中 输入 代码 如 下 : 
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С = 1.0 + SVM 正则 化 参数 

models = (svm.SVC (kernel="'rbf', gamma=0.1, С=С), 
svm.SVvC (kernel='rbf', gamma=1, C=C), 
svm. SVC (kernel='rbf', gamma=10, С-С)) 

models = (clf.fit(X, y) for clf in models) 


# 设 定 图 题 

titles = ('gamma = 0.1", 
“Gamma = 1", 
"аатта = 10", 
) 

# 设 置 子 图 形 个 数 和 排列 


На, sub = plt.subplots (1, 3,figsize = (10,3)) 


ХО, IESE ОЕ | 11 
хх, уу = таке meshgrid(X0, X1) 
# 使 用 定义 好 的 函数 进行 画图 
for Е, title, ах іп zip(models, titles, sub.flatten(}}): 
plot contours (ах, clf, xx, уу, 
cmap=plt.cm.plasma, а1рһа=0.8) 
ax.scatter (X0, X1, c=y, cmap=plt.cm.plasma, 3-20, еддесо1огз-"К") 
ax.set х 1 (хх.шп(), хх.пах()) 
ax.set у1іт (уу.тіп(), уу.тах ()) 
ах.зес х1аре1 ("Ееаёиге 0") 
ах зе үїіаоєе(кенеиғе 15) 
ax.set хііскз (()) 
ах.зес yticks(()) 
ах чес Есте CIEIE)} 


# 将 图 片 显示 出 来 
SR 
运行 代码 ， 会 得 到 如 图 7-8 所 示 的 结果 。 
гатта-0.1 гатта- 1 гатта- 10 


Feature 1 
Feature 1 
Feature 1 


Feature 0 Feature 0 Feature 0 
7-8 不 同 的 gamma 值 对 应 的 RBF 内 核 SVC 分 类 器 


【 结果 分 析 】 从 图 7-8 中 ， 可 以 看 出 ， 自 左 至 右 ватта {ЁЛ 0.1 增加 到 10，gamma 
值 越 小 ， 则 RBF 内 核 的 直径 越 大 ， 这 样 就 会 有 更 多 的 点 被 模型 圈 进 决定 边界 中 ， 所 以 决 
定 边界 也 就 越 平 滑 ， 这 时 的 模型 也 就 越 简单 ;而 随 着 参数 的 增加 ， 模 型 则 更 倾 癌 于 把 每 
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一 个 点 都 放 到 相应 的 决定 边界 中 ， 这 时 模型 的 复杂 度 也 相应 提高 了 。 所 以 gamma 值 越 小 ， 
模型 越 倾 问 于 从 拟 合 ， 而 gamma 值 越 大 ， 则 模型 越 倾 同 于 出 现 过 拟 合 的 问题 。 

而 至 于 正则 化 参数 C， 读 者 朋友 可 以 参见 我 们 在 第 4 章 线性 模型 的 介绍 ，C 值 越 小 ， 
模型 就 越 受 限 ， 也 就 是 说 单个 数据 点 对 模型 的 影响 越 小 ， 模 型 就 越 简单 ;而 CERA, 
每 个 数据 点 对 模型 的 影响 就 越 大 ， 模 型 也 会 更 加 复杂 。 


7.2.3 SVM 算法 的 优势 与 不 足 


SVM 可 以 说 是 在 机 器 学 习 领 域 非常 强大 的 算法 了 ， 对 各 种 不 同类 型 的 数据 集 都 有 
不 错 的 表现 。 它 可 以 在 数据 特征 很 少 的 情况 下 生成 非常 复杂 的 决定 边界 ， 当 然 特征 数量 
很 多 的 情况 下 表现 也 不 错 ， 换 名 话说，SVM 应 对 高 维 数据 集 和 低 维 数据 集 都 还 算是 得 心 
应 手 。 但 是 ， 前 提 条 件 是 数据 集 的 规模 不 太 大 。 如 果 数 据 集中 的 样本 数量 在 1 万 以 内 ， 
SVM 都 能 驾驭 得 了 ， 但 如 果 样 本 数量 超过 10 万 的 话 ，SVM 就 会 非常 耗费 时 间 和 内 存 。 

SVM 还 有 一 个 短 板 ， 就 是 对 于 数据 预 处 理 和 参数 调节 要 求 非常 高 。 所 以 现在 很 多 
场景 下 大 家 都 会 更 乐意 用 我 们 在 上 一 章 中 介绍 的 随机 森林 算法 或 者 是 梯度 上 升 决 策 树 

(GBDT) 算法 了 。 因 为 它们 不 需要 对 数据 做 预 处 理 ， 也 不 用 费 尽 心机 去 调 参 。 而 且 对 
于 非 专 业 人 士 来 说 ， 随 机 森林 和 梯度 上 升 决 策 树 要 比 SVM 更 容易 理解 ， 毕 竟 SVM 算法 
的 建 模 过 程 是 比较 难以 呈现 的 。 

不 管 怎么 说 ，SVM 还 是 有 价值 的 。 假 设 数据 集中 样本 特征 的 测度 都 比较 接近 ， 例 如 
在 图 像 识 别 领域 ， 还 有 样本 特征 数 和 样本 数 比较 接近 的 时 候 ，SVM 都 会 游 刀 有余。 

需要 请 读者 朋友 留意 的 是 ， 在 SVM 算法 中 ， 有 3 个 参数 是 比较 重要 的 : 第 一 个 是 
核 函 数 的 选择 ; 第 二 个 是 核 函 数 的 参数 ， 例 如 RBF 的 ватта 值 ; 第 三 个 是 正则 化 参数 С. 
RBF 内 核 的 gamma 值 是 用 来 调节 内 核 宽 度 的 ，gamma 值 和 C 值 一 起 控制 模型 的 复杂 度 ， 
数值 越 大 模型 越 复杂 ， 而 数值 越 小 模型 越 简单 。 实 际 应 用 中 ，gamma EM C 值 往往 要 一 
起 调节 ， 才 能 达到 最 好 的 效果 。 


7.3 SVM 实例 一 一 波士顿 房价 回归 分 析 


前 和 面 介绍 了 文 持 向 量 机 SVM 在 分 类 任务 中 的 应 用 ， 下 面 我 们 再 通过 一 个 实例 来 介 
绍 SVM 在 回归 分 析 中 的 应 用 。 在 scikit-learn 中 ， 内 置 了 一 个 非常 适合 做 回归 分 析 的 数 
据 集 ， 波 士 顿 房价 数据 集 ， 在 这 一 小 节 中 ， 我 们 将 使 用 该 数据 集 为 大 家 讲解 SVM 中 用 
于 回归 分 析 的 SVR 的 用 法 。 
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7.31 初步 了 解数 据 集 


首先 还 是 让 我 们 先 了 解 一 下 数据 集 的 大 致 情况 。 我 们 在 Jupyter Notebook 中 新 建 一 个 
笔记 本 文件 ， 输 入 代码 如 下 : 
# 导 入 波士顿 房价 数据 集 


from sklearn.datasets import load boston 
boston = load boston () 


# 打 印 数据 集中 的 键 


print (boston.keys () ) 


运行 代码 将 得 到 结果 如 图 7-9 所 示 。 


7-9 波士顿 房价 数据 集中 的 键 


【 结果 分 析 】 从 结果 中 可 以 看 出 , 波士顿 房价 数据 集中 有 4 个 键 , 分别 是 数据 、 目 标 、 
特征 名 称 和 短 描述 。 细心 的 读者 可 能 发 现 , 波士顿 房价 数据 集 比 红酒 数据 集 少 了 一 个 键 ， 
就 是 目标 名 称 (target_names) ， 这 是 为 什么 呢 ? 让 我 们 看 一 下 数据 描述 里 是 怎么 说 的 。 

输入 代码 如 下 : 

# 打 印 数 据 集中 的 短 描述 


print (bostoni "ПЕЗСЕ" |) 
运行 代码 ， 会 得 到 较 长 的 一 段 文字 ， 现 截取 一 些 关 键 信息 如 图 7-10 Тя. 
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图 7-10 数据 集 短 描述 的 一 部 分 


【 结果 分 析 】 从 上 面 这 段 描述 中 可 以 看 出 ， 数 据 集中 共有 506 个 样本 ， 每 个 样本 有 
13 个 特征 变量 。 而 后 面 还 有 一 个 叫 作 中 位 数 的 第 14 个 变量 ， 这 个 变量 就 是 该 数据 集中 
的 target。 

现在 我 们 继续 往 下 看 数据 描述 ， 如 图 7-11 тя. 
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图 7-11 数据 集中 的 特征 描述 


【 结果 分 析 】 从 数据 描述 中 ， 我 们 可 以 看 到 ， 原 来 这 个 变量 是 业主 自 住 房屋 价格 的 
中 位 数 , 以 千 美 元 为 单位 ,怪不得 这 个 数据 集 把 它 作 为 target 呢 ! 那么 接 下 来 我 们 的 任务 ， 
就 是 通过 SVR 算法 ， 来 建立 一 个 房价 预测 模型 。 


7.3.2 ”使 用 SVR 进 行 建 模 
接 下 来 ， 我 们 要 先 制作 训练 数据 集 和 测试 数据 集 ， 输 入 代码 如 下 : 


运行 上 述 代码 ， 会 得 到 结果 如 图 7-12 所 示 。 


7-12 拆 分 后 训练 集 和 测试 集 的 形态 
7-12 说 明 训 练 数据 集 和 测试 数据 集 我 们 已 经 准备 好 了 ,下面 开 始 用 SVR 进行 建 模 。 
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我 们 在 前 面 介 绍 了 SVM 的 两 种 核 图 数 : “Linear” 和 “rbf”， 不 过 我 们 不 知道 这 两 种 核 
函数 哪 一 个 会 让 模型 表现 得 更 好 ， 那 么 我 们 就 分 别 党 试 一 下 ， 输 入 代码 如 下 : 
# 导 入 支持 向 量 机 回归 模型 


from sklearn.svm import SVR 
# 分 别 测试 1inear 核 函数 和 rbf 核 函数 
Гог kernel іп [linear "гЬГ"|: 
svr = SVR(kernel=kernel) 
зуг.А5(Х train; у train) 
print (kernel1,，' 核 函数 的 模型 训练 集 得 分 : {:.3f}'.format ( 
зуг.зсоге (Х train, у Сгатп))) 
print (kernel1,，' 核 函数 的 模型 测试 集 得 分 : {:.3f}'.format ( 


зуг.зсоге (Х test, у test))) 


运行 代码 ， 会 得 到 如 图 7-13 所 示 的 结果 。 


【 结果 分 析 】 从 结果 中 看 到 , 两 种 核 函数 的 模型 得 分 都 不 能 令 人 满意 。 使 用 了 “linear” 

核 函 数 的 模型 在 训练 集 的 得 分 只 有 0.709， 而 在 测试 集 只 有 0.696。 不 过 使 用 “rbf” 核 函 
数 的 模型 更 糟糕 ， 在 训练 数据 集 的 分 只 有 0.145， 而 在 测试 集 的 得 分 完全 可 以 用 “灾难 ” 
来 形容 了 一 一 居然 只 有 0.001 分 。 

这 是 什么 原因 呢 ? 我们 来 思考 一 下 ， 会 不 会 是 数据 集 的 各 个 特征 之 间 的 量 级差 的 比 
较 远 呢 ? 正如 我 们 在 731 节 所 说 ，SVM 算法 对 于 数据 预 处 理 的 要 求 是 比较 高 的 ， 如 果 
数据 特征 量 级 差异 较 大 ， 我 们 就 需要 对 数据 进行 预 处 理 。 所 以 现在 我 们 先 来 用 图 形 可 视 
化 的 方法 看 一 看 数据 集中 各 个 特征 的 数量 级 是 什么 情况 ， 输 入 代码 如 下 : 

# 将 特征 数值 中 的 最 小 值 和 最 大 值 用 散 点 画 出 来 


plt.plot (X.min (ахізѕ=0), "у', 1аре1='міп') 
plt.plot (Х.пах (ахізѕ=0), '^',1аре1='тах') 
# 设 定 纵 坐 标 为 对 数 形式 

р1|С. узса!е ("1оа") 

# 设 置 图 注 位 置 为 最 佳 

plt.legend (1ос= "Безт") 

# 设 定 横 纵 轴 标 题 

plt.xlabel('features') 
plt.ylabel('feature magnitude') 

# 显 示 图 形 

рі. зһом () 


运行 代码 ， 会 得 到 如 图 7-14 所 示 的 结果 。 
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特征 
图 7-14 波士顿 房价 数据 集中 各 个 特征 的 量 级 分 布 


【 结果 分 析 】 从 图 7-14 中 可 以 看 到 ， 在 波士顿 房价 数据 集中 ， 各 个 特征 的 量 级 差异 
还 是 比较 大 的 ， 第 一 个 特征 “城镇 犯罪 率 ” 最 小 值 的 在 10“， 而 最 大 值 达到 了 10 (这 很 
有 可 能 是 一 个 错误 的 数据 点 ， 犯 罪 率 应 该 不 会 如 此 之 高 ) 。 而 第 十 个 特征 “税收 ”的 最 
小 值 和 最 大 值 都 在 10 到 10 之 间 。 
看 来 为 了 能 够 让 SVM 算法 能 够 更 好 地 对 数据 进行 拟 合 ， 我 们 必须 对 数据 集 进 行 预 
处 理 ， 输 入 代码 如 下 : 
# 导 入 数据 预 处 理工 具 


from sklearn.preprocessing import StandardScaler 
# 对 训练 集 和 测试 集 进行 数据 预 处 理 

scaler = ЗЅіапаагадса1ег () 

scaler.fit (X train) 

Х train scaled = scaler.transform(X train) 

Х test scaled = зса1ег.ігапзҒогю(Х test) 


# 将 预 处 理 后 的 数据 特征 最 大 值 和 最 小 值 用 散 点 图 表示 出 来 

plt.plot(X Erain scaled.min(axi1s=0}), Vv -label= train set ш1п") 
plt.plot (X train зса1еа.тах (axis=0)," ",label="train set max") 
Pit -pIOE(X test зсатей.т1п (ахіз=0), Vv 7 label test зе ш1п") 
plt.plot(X test scaled.max(axis=0)," ",label="test set пах!) 
plt.yscale('log') 


# 设 置 图 注 位 置 
рі. Іедепа (1ос= "Безт") 


# 设 置 横 纵 轴 标 题 
plt.xlabel('scaled features ') 
plt.ylabel('scaled feature magnitude') 


# 显 示 图 形 
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рі. зһом () 


运行 代码 ， 将 会 得 到 如 图 7-15 所 示 的 结果 。 


6 8 
数据 特征 
Р 7-15 经 过 预 处 理 的 数据 特征 量 级 分 布 


【 结果 分 析 】 从 图 7-15 中 ， 可 以 看 出 ， 经 过 了 我 们 的 预 处 理 ， 不 管 是 训练 集 还 是 测 
试 集 ， 基 本 上 所 有 的 特征 最 大 值 都 不 会 超过 10， 而 最 小 值 也 都 趋 近 于 0， 以 至 于 在 图 中 
我 们 已 经 看 不 到 它们 了 。 这 和 我 们 使 用 的 预 处 理 的 工具 原理 有 关 ， 在 后 面 的 章节 ， 我 们 
还 会 详细 介绍 数据 预 处 理 的 方法 。 

现在 我 们 再 试 试 用 经 过 预 处 理 的 数据 来 训练 模型 ， 看 看 结果 会 有 什么 不 同 ， 输 入 代 
юш Е: 

# 用 预 处 理 后 的 数据 重新 训练 模型 


tor kernel in | linear "тыг 
svr = SVR (Кегпе1=Ккегпе1) 
avr.ñt(X train scaled, y train 
print ("ЖАЧБ ', кегпе1, ' 核 函数 的 模型 训练 集 得 分 ， {: .format ( 
зуг.зсоге (Х train scaled, у train))) 
print (' 数 据 预 处 理 后 '， kerne1,' 核 函数 的 模型 测试 集 得 分 : {: .3f}' .format ( 


зуг.зсоге (Х test scaled, у test) ) ) 


运行 代码 ， 会 得 到 如 图 7-16 所 示 的 结果 。 


图 7-16 经 过 数据 预 处 理 之 后 的 模型 得 分 


【 结果 分 析 人 从 结果 中 可 以 看 到 , 经 过 预 处 理 之 后 ,“linear” 内 核 的 SVR 得 分 变化 不 大 ， 
而 “rbf” 内 核 的 SVR 得 分 有 了 巨大 的 提升 。 尤 其 是 在 测试 集中 的 得 分 ， 从 0.001 分 直接 
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提升 到 0.694， 己 经 非常 接近 “linear” 内 核 的 模型 了 。 那 么 如 果 我 们 进一步 调整 “rbf” 
内 核 的 SVR 模型 参数 ， 会 不 会 让 它 的 表现 进一步 提升 呢 ? 下 面 我 们 来 实验 一 下 。 

和 SVC 一 样 ，SVR 模型 也 有 gamma 和 C 两 个 参数 ， 接 下 来 我 们 试 着 对 这 两 个 参数 
进行 修改 ， 输 入 代码 如 下 : 

# 设 置 模型 的 C 参 数 和 gamma 参 数 


svr = SVR(C=100, gamma=0.1) 

зуг.НЕ(Х train зса1еа, у Сгатп) 

print(' 调 节 参 数 后 的 模型 在 训练 集 得 分 : {:.3f} .format( 
зуг.зсоге (Х train scaled, у train))) 

print (' 调 节 参 数 后 的 模型 在 测试 集 得 分 : {:.3f}' .format ( 


зуг.зсоге (Х test scaled, у test))) 


在 这 段 代码 中 , RIIS SVR 模型 的 参数 C 等 于 100, 而 ватта 值 等 于 0.1, 运行 代码 ， 
将 会 得 到 结果 如 图 7-17 所 示 。 
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图 7-17 调节 参数 后 的 模型 得 分 


【 结果 分 析 】 这 是 一 个 比较 不 错 的 结果 ， 我 们 看 到 通过 参数 调节 ，“rbf” 内 核 的 
SVR 模型 在 训练 集 的 得 分 已 经 高 达 0.966， 而 在 测试 数据 集 的 得 分 也 达到 了 0.894， 可 以 
说 现在 模型 的 表现 已 经 是 可 以 接受 的 。 


7.4 小 结 


在 本 章 中 ， 我 们 一 起 学 习 了 支持 向 量 机 SVM 算法 的 基本 原理 ， 以 及 它 的 “linear” 
核 函 数 和 “rbf” 核 函数 ， 还 有 参数 C 和 gamma 的 调节 。 最 后 我 们 使 用 了 一 个 真实 的 数 
据 集 一 一 波士顿 房价 数据 集训 练 了 我 们 的 SVR 模型 。 在 这 个 实例 中 ， 我 们 一 步 一 步 地 通 
过 对 数据 进行 预 处 理 和 对 参数 进行 调节 ， 使 “rbf” 内 核 的 SVR 模型 在 测试 集中 的 得 分 从 
0.001 飙升 到 了 0.894， 通 过 这 个 案例 ， 我 们 可 以 清晰 地 了 解 到 SVM 算法 对 于 数据 预 处 
理 和 调 参 的 要 求 都 是 非常 高 的 了 。 而 在 下 一 章 中 ， 我 们 将 各 大 家 介绍 时 下 非常 热门 的 算 
法 一 一 神经 网 络 。 
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Ж Са АА ІА ЮА, ЗЕ: 小 1 通过 了 CPA 考试 ， 而 后 顺 
利 拿 到 了 四 大 会 计 师 事务 所 之 一 的 offer， 成 了 一 名 高 端 大 气 上 档次 的 会 计 师 。 但 是 作为 
应 届 生 ， 在 “四 大 ”里 面 什么 苦 活 累 活 都 得 干 ， 其 中 最 琐碎 枯燥 的 工作 之 一 ， 就 是 财务 
凭证 的 录入 工作 。 在 传统 的 工作 模式 下 ， 财 务 人 员 要 把 凭证 上 的 数字 一 个 一 个 录入 到 系 
统 中 ,十 分 耗 时 耗 力 ， 这 导致 小 I 常常 要 加 班 到 很 晚 。 小 C 看 在 眼 里 ， 心 疼 得 不 行 ， 所 
以 他 决定 训练 一 个 神经 网 络 来 帮助 小 I 更 高 效 地 完成 工作 。 

本 章 主 要 涉及 的 知识 点 有 : 
神经 网 络 的 前 世 今 生 
神经 网 络 的 原理 和 非 线性 矫正 
神经 网 络 的 模型 参数 调节 
使 用 神经 网 络 训练 手写 数字 识别 模型 


+ 


Y y y 


8.1 神经 网 络 的 前 世 今 生 


其 实 神经 网 络 并 不 是 什么 新 鲜 事 物 了 ， 早 在 1943 年 ， 美 国 神 经 解剖 学 家 沃 伦 。 麦 殉 
y (Warren McCulloch) 和 数学 家 沃尔特 。 皮 茨 (Walter Pitts) 就 提出 了 第 一 个 脑 神经 
元 的 抽象 模型 ， 被 称 为 М-Р 模型 (McCulloch-Pitts neuron, МСР) 。 


8.1.1 神经 网 络 的 起 源 


这 里 我 们 要 先 简 单 介 绍 一 下 神经 元 (Neuron) , 神经 元 是 大 脑 中 相互 连接 的 神经 细胞 ， 
它 可 以 处 理 和 传递 化 学 和 电信 号 。 有 意思 的 是 ， 神 经 元 具有 两 种 常规 工作 状态 : 兴奋 和 
抑制 ， 这 和 计算 机 中 的 “1” 和 “0” 原 理 几 乎 完全 一 样 。 所 以 麦克 洛 奇 和 皮 光 将 神经 元 
描述 为 一 个 具备 二 进 制 输出 的 逻辑 门 : 当 传 入 的 神经 冲动 使 细胞 膜 电 位 升 高 超过 闵 值 时 ， 
细胞 进入 兴奋 状态 ， 产 生 神 经 冲动 并 由 轴 突 输出 ; 反之 当 传 入 的 冲动 使 细胞 膜 电 位 下 降 
低 于 羡 值 时 ， 细 胞 进入 抑制 状态 ， 便 没有 神经 冲动 输出 。 神 经 元 的 结构 如 图 8-1 所 示 。 


细胞 核 = 


81 神经 元 的 结构 


8.1.2 ”第 一 个 感知 器 学 习 法 则 


1958 年 ， 著 名 的 计算 机 科学 家 弗 兰 苑 。 罗 和 森 布 拉 
特 (Frank Rossenblatt) СА 8-2) 基于 М-Р 模型 提 
出 了 第 一 个 感知 器 学 习 法 则 ， 他 的 感知 器 由 两 层 神经 
元 组 成 神经 网 络 ， 是 世界 上 首 个 可 以 学 习 的 人 工 神经 
网 络 ， 而 且 已 经 可 以 进行 简单 的 图 像 识 别 ， 这 在 当时 
的 社会 可 是 引起 了 轩然大波 。 人 们 都 以 为 发 现 了 智能 : 
的 奥秘 ， 甚 至 美国 军 方 认 为 神经 网 络 比 原 子弹 工程 更 图 8-2 


Кара 


弗 兰 苑 。 罗 和 森 布 拉 特 和 感知 器 
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重要 ， 并 大 力 资 助 神经 网 络 的 研究 。 

但 是 好 景 不 长 ， 到 了 1969 年 ， 另 一 位 计算 机 领域 的 大 牛马 文 。 明 斯 基 (Marvin 
Minsky) СЛ 8-3〉 出 版 了 perceptron 的 一 书 ， 书 中 闻 述 了 感知 器 的 弱点 ， 单 层 感知 器 
对 很 多 简单 的 任务 都 无 法 完成 ， 而 双 层 感知 器 又 对 计算 能 力 的 要 求 过 高 〈 当 时 的 计算 能 
力 远 远 达 不 到 今天 的 水 平 ) ， 而 且 没 有 有 效 的 学 习 算 法 。 结 论 是 研究 更 深层 的 神经 网 络 
没有 意义 。 明 斯 基 的 论述 让 神经 网 络 的 研究 陷入 低谷 ， 这 也 是 被 大 家 称 为 “AI winter” 
的 人 工 智 能 冰河 期 。 


图 8-3 BX ВТЕ 


马 文明 斯 基 是 人 工 智能 领域 的 先驱 者 ， 著 名 的 达 特 茅 斯 会 议 就 是 他 于 1956 年 和 
另 一 位 重量 级 的 科学 家 约翰 。 麦 卡 锡 共同 发 起 的 。1969 年 明 斯 基 被 授予 图 灵 奖 ， 是 历史 
上 第 一 位 获 此 殊荣 的 人 工 智 能 学 者 。 可 惜 的 是 ，2016 年 1 月 ， 这 位 伟大 的 科学 家 离 我 们 
而 去 ， 享 年 88 岁 。 
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(Geoffrey Hinton) САМ 8-4) 等 人 提出 了 
反 回 传播 算法 (Back propagation, ВР) ， 
解决 了 两 层 神经 网 络 所 需要 的 复杂 计算 问 
题 ， 重 新 市 动 业 界 的 热潮 。 而 杰 弗 瑞 。 欣 顿 
本 人 也 被 大 家 称 为 “神经 网 络 之 父 ”。 

但 让 人 万 万 想不到 的 是 ， 到 了 20 世纪 р 
90 年 代 中 期 ，SVM 算法 ， 也 就 是 我 们 在 第 | 


7 章 中 介绍 的 文 持 回 量 机 诞生 。SVM 一 问世 就 显露 出 强悍 的 能 力 ， 如 不 需要 调 参 、 效 率 
更 高 等 ， 它 的 出 现 又 一 次 将 神经 网 络 击败 ， 成 为 了 当时 的 主流 算法 。 从 此 ， 神 经 网 络 又 
一 次 进入 了 冰河 期 。 

好 在 杰 弗 瑞 。 欣 顿 并 没有 放弃 ， 在 神经 网 络 被 据 弃 的 时 间 里 ， 他 和 其 他 几 个 学 者 还 
坚持 在 研究 ， 而 且 给 多 层 神 经 网 络 算法 起 了 一 个 新 的 名 字 一 一 深度 学 习 。 

后 来 的 事情 大 家 都 知道 了 ， 在 本 次 人 工 智 能 大 潮 中 ， 深 度 学 习 占 据 了 统治 地 位 ， 不 
管 是 在 图 像 识 别 、 语 音 识 别 、 目 然 语 言 处 理 、 无 人 轨 驶 等 领域 ， 都 有 非常 广泛 的 应 用 。 
本 章 我 们 重点 介绍 的 ， 便 是 神经 网 络 中 的 多 层 感 知 器 (Multilayer Perceptron, MLP) 。 


8.2 神经 网 络 的 原理 及 使 用 


音 “ 深 度 学 习 " 之 名 重新 回 到 大 家 视线 范围 的 神经 网 络 包含 了 诸多 算法 , 而 在 本 章 中 ， 
我 们 重点 向 大 家 介绍 的 是 “多 层 感 知 器 ”， 即 MLP 算法 ， 以 此 作为 读者 朋友 们 进入 深度 
学 习 的 起 点 ，MLP 也 被 称 为 前 馈 神 经 网 络 ， 或 者 被 泛称 为 神经 网 络 。 


8.2.1 神经 网 络 的 原理 
不 知道 读者 朋友 们 是 否 还 记得 我 们 在 第 4 章 中 介绍 的 线性 模型 的 一 般 公式 : 
p= w0] • x[0] + м1] • x[1] + + wip] хр! + Б 


其 中 了 表示 对 了 的 估计 值 ，x[0] 到 Хо 是 样本 特征 值 ，w 表 示 每 个 特征 值 的 权重 , у-пан 
可 以 看 成 是 所 有 特征 值 的 加 权 求 和 ， 我 们 可 以 用 图 8-5 表示 这 个 过 程 。 


在 图 8-5 中 ， 输 入 的 特征 和 预测 的 结果 用 节点 进行 表示 ， 系 数 w 用 来 连接 这 些 节 点 。 
而 在 MLP 模型 中 ， 算 法 在 过 程 里 添加 了 隐藏 层 (Hidden Layers) ， 然 后 在 隐藏 层 重复 进 
行 上 述 加 权 求 和 计算 ， 最 后 再 把 隐藏 层 所 计算 的 结果 用 来 生成 最 终结 果 ， 如 图 8-6 所 示 。 


8-6 带 1 个 隐藏 层 的 MLP 模型 


这 样 一 来 ， 模 型 要 学 习 的 特征 系数 ， 或 者 说 权重 ， 就 会 多 很 多 了 。 大 家 可 以 看 到 在 
每 一 个 输入 的 特征 和 隐藏 单元 (hidden unit) 之 间 ， 都 有 一 个 系数 ， 这 一 步 也 是 为 了 生成 
这 些 隐藏 单 元 。 而 每 个 隐藏 单元 到 最 终结 果 之 间 ， 也 都 有 一 个 系数 。 而 计算 一 系列 的 加 
权 求 和 和 计算 单一 的 加 权 求 和 。 


8.22 ”神经 网 络 中 的 非 线 性 矫正 


从 数学 的 角度 来 说 ， 如 果 每 一 个 隐藏 层 只 是 进行 加 权 求 和 ， 得 到 的 结果 和 普通 的 线 
性 模型 不 会 有 什么 不 同 。 所 以 为 了 让 模型 能 够 比 普通 线性 模型 更 强大 一 些 ， 我 们 还 需要 
进行 一 点 处 理 。 

这 种 处 理 方法 是 : 在 生成 隐藏 层 之 后 ， 我 们 要 对 结果 进行 非 线 性 矫正 (rectifying 
nonlinearity) ， 人 简称 为 relu (rectified linear unit) 或 者 是 进行 双 曲 正切 处 理 (tangens 
hyperbolicus) , ВЖ 2) tanh。 通 过 这 两 种 方式 处 理 后 的 结果 用 来 计算 最 终结 果 у. 这 样 
讲 实在 过 于 抽象 , 我 们 还 是 用 图 像 来 进行 直观 展示 , 在 Jupyter Notebook 中 输入 代码 如 下 : 


# 导 入 numpy 

import numpy as np 

# 导 入 画图 工具 

import matplotlib.pyplot аз plt 


# 生 成 一 个 等 差 数 列 
line = пр. 1 1пзрасе (-5,2,200) 


# 男 出 非 线性 矫正 的 图 形 表 示 
plt.plot (line, np.tanh (line),1label="'tanh') 
plt.plot (line, np.maximum (1іпе, 0), І1аре1='ге1ц!') 


# 设 置 图 注 位 置 

plt.legend (loc='best') 

# 设 置 横 纵 轴 标 题 

Plt-xlabeld's ) 
plt.ylabel('relu(x) апа tanh (х) ') 
# 显 示 图 形 

рі. зрои () 


运行 代码 ， 会 得 到 结果 如 图 8-7 所 示 。 
?| 一 tanh 
| 


3 


经 tanh 和 relu 函 数 处 理 后 的 x 值 
мә 


-4 -2 0 2 4 
8-7 ”对 特征 进行 а 和 relu 处 理 
【 结果 分 析 】 从 图 中 可 以 看 出 ，tanh 函数 把 特征 x 的 值 压缩 进 -1 到 1 的 区 间 内 ，-1 
代表 的 是 x 中 较 小 的 数值 ， 而 1 代表 x 中 较 大 的 数值 。relu 函数 则 索性 把 小 于 0 的 x 值 全 
部 去 掉 ， 用 0 来 代 蔡 。 这 两 种 非 线 性 处 理 的 方法 ， 都 是 为 了 将 样本 特征 进行 简化 ， 从 而 
使 神经 网 络 可 以 对 复杂 的 非 线 性 数据 集 进行 学 习 。 
那么 这 样 一 来 ， 我 们 刚才 所 看 到 的 公式 : 
p= 0] • х0 + и • x[1] ++ + wip] • xip] + 
经 过 tanh 处 理 后 ， 就 会 变 成 下 面 的 样子 : 
h[0] = tanh (w[0] ХО + м1] • x[1] + wip] • xip] + b) 
hll] =tanh (wi{0] ХО + ее x[1] ++ + wip] ° xip] + Б) 
Һ[2] = tanh СиО] 。 ХО) + w[1] • x[1] ++ + Ре xip] + b) 
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P= viO] ДИ + vl] ° hll] + + ИТ • hin] 

在 权重 系数 w 之 外 ， 我 们 又 多 了 一 个 权重 系数 v, 用 来 通过 隐藏 层 刀 来 计算 yhat 的 
结果 。 在 模型 中 ，w 和 v 都 是 通过 对 数据 的 学 习 所 得 出 的 。 而 用 户 所 要 设置 的 参数 ， 就 
是 隐 泸 层 中 节点 的 数量 。 一 般 来 讲 ， 对 于 小 规模 数据 集 或 者 简单 数据 集 ， 节 点 数量 设置 
为 10 就 已 经 足够 了 , 但 是 对 于 大 规模 数据 集 或 者 复杂 数据 集 来 说 , 有 两 种 方式 可 供 选 择 : 
一 是 增加 隐藏 层 中 的 节点 数量 ， 比 如 增加 到 1 万 个 ; 或 是 添加 更 多 的 隐藏 层 ， 如 图 8-8 
所 示 的 样子 。 


8-8 ”对 模型 添加 新 的 隐藏 层 


在 大 型 神经 网 络 当中 ， 往 往 有 很 多 这 样 的 隐藏 屋 ， 这 也 是 “深度 学 习 ” 中 “深度 ” 
二 字 的 来 源 。 


8.2.3 神经 网 络 的 参数 设置 


下 面 我 们 就 以 MLP 算法 中 的 MLP 分 类 器 为 例 ， 研 究 一 下 MLP 分 类 器 模型 的 使 用 


方法 。 这 次 我 们 还 是 使 用 熟悉 的 酒 的 数据 集 。 在 Jupyter Notebook 中 输入 代码 如 下 : 
# 导 入 MLP 神 经 网 络 


from sklearn.neural network import MLPClassifier 

# 导 入 红酒 数据 集 

from sklearn.datasets import load wine 

# 导 入 数据 集 拆 分 工具 

from sklearn.model selection import train test split 
wine = load міпе () 

X = міпе.ааѓёа [:,:2] 

у = wine.target 

а 


下 面 我 们 拆 分 数据 集 


X train X test, у train, у test = train test split (Х, у,гапдош згтасе-0) 
# 接 下 来 定义 分 类 器 

mlp = MLPClassifier (зо1уег-"1ЬЕдз") 

mp htt Erain, у Crain) 


运行 代码 ， 会 得 到 如 图 8-9 所 示 的 结果 。 


РС 1 2111187 tt , б, БА Кіе во". bata 1-0. t 
Бета 1-0. VT, ву зо bm altr. рай jos е. 8, 
hdl Lpr 111е91-(188,3, реа ер rat- "галт", 


TL тт 115 -# 6981. ван Ат H. толыт лав. 9, 

едра ФОРТ ыа ет, рам 1-#.4, Гато ОТ-н, 
iby ее т, olver= ВЕДЬ". ТоТ Фа. ва 13и от "га рт, |, 
негов 2 а |, Tt | 
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【 结果 分 析 】 和 我 们 之 前 使 用 的 算法 一 样 ，MLP 分 类 器 也 把 它 上 自己 的 参数 给 我 们 返 
了 回来 。 其 中 solver = “lbfgs” 是 我 们 在 代码 中 指定 的 ， 而 其 他 的 参数 都 是 算法 默认 的 。 
下 面 我 们 重点 看 一 下 各 个 参数 的 含义 : 
activation 是 8.2.2 节 中 提 到 的 将 隐藏 单元 进行 非 线 性 化 的 方法 ， 一 共有 4 种 : 
“identity” “logistic” “tanh” 以 及 “relu”， 而 在 默认 情况 下 ， 参 数值 是 “relu”。 其 
中 “identity” 对 样本 特征 不 做 处 理 , 返回 值 是 f(xX) = ж 而 “logistic” 返 回 的 结果 会 是 f(x) 
<1/|1 + ехр (х) ]， 这 种 方法 和 tanh 类 似 ， 但 是 经 过 处 理 后 的 特征 值 会 在 0 和 1 之 间 。 
其 余 两 个 参数 值 ，tanh 和 reu 我 们 已 经 介绍 过 ， 在 这 里 就 不 重复 了 。 
alpha 值 和 线性 模型 的 alpha 值 是 一 样 的 , 是 一 个 L2 惩罚 项 ,， 用 来 控制 正则 化 的 程度 ， 
默认 的 数值 是 0.0001. 
这 里 着重 介绍 一 下 hidden_layer_sizes 参数 ， 默 认 情 况 下 ，hidden_layer_sizes 的 值 
是 [100,] 这 意味 着 模型 中 只 有 一 个 隐藏 层 ， 而 隐藏 层 中 的 节点 数 是 100。 如 果 我 们 给 
hidden_layer_sizes 定义 为 [10,10]， 那 就 意味 厦 模 型 中 有 两 个 隐藏 层 ， 每 层 有 10 个 节点 。 
现在 用 图 像 展 示 一 下 MLP 分 类 的 情况 ， 输 入 代码 如 下 : 


# 导 入 画图 工具 
import маїр1оё1ір.рур1оі аз pit 
from matplotlib.colors import ListedColormap 


# 使 用 不 同色 块 表示 不 同 分 类 

стар light = ListedColormap (| "#ЕЕАААА", "#ААЕЕАА", "#ААААЕЕ" |) 

стар bold = ListedqColormap (| "#ЕЕО000", "#00ЕЕО0", '#0000ЕЕ']) 

х min, х max = X ёгаіп[:, 0] .min() - 1, X train[:, 0] .max() + 1 

у піп, у шах = X ёгаіп[:, 11.шп() - 1, X ёраіп[:, 11 .шах() + 1 

хх, уу = пр.тезһагіа (пр.агапде (х тіп, х max, .02), 
пр.агапде (у тіп, у тах, -02)) 
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运行 代码 ， 会 得 到 结果 如 图 8-10 所 示 。 


MLPClassifier:solver=lbfgs 


11 12 13 14 15 
8-10 ”隐藏 层 节点 数 为 100 时 的 МІР 分 类 器 


下 面 我 们 试 试 把 隐藏 层 的 节点 数 变 少 ， 如 减少 至 10 个 ， 看 会 发 生 什 么 。 在 Jupyter 
Notebook 中 输入 代码 如 下 : 


深入 浅 出 Python ўа 


plt.ylim(yy.min(), yy.max()) 

# 设 置 图 题 
plt.title("MLPClassifier:nodes=10") 
# 显 示 图 形 

plt.show() 


运行 代码 ， 会 得 到 如 图 8-11 所 示 的 结果 。 


MLPClassifier'nodes=10 


11 12 13 14 15 
8-11 隐藏 层 节点 数 为 10 时 的 МІР 分 类 器 


【 结果 分 析 】 如 果 将 图 8-11 和 图 8-10 进行 对 比 ， 你 就 会 发 现 分 类 器 生成 的 决定 边界 

看 起 来 很 不 一 样 了 。 节 点 数 为 10 的 时 候 ， 决 定 边界 丢失 了 很 多 细节 。 我 们 可 以 这 样 理解 ， 
在 每 一 个 隐藏 层 当 中 ， 节 点 数 就 代表 了 决定 边界 中 最 大 的 直线 数 ， 这 个 数值 越 大 ， 则 决 
定 边界 看 起 来 越 平 滑 。 当 然 ， 除 了 增加 单个 隐藏 层 中 的 节点 数 之 外 ， 还 有 两 种 方法 可 以 
让 决定 边界 更 细腻 : 一 个 是 增加 隐藏 层 的 数量 ， 男 一 个 是 把 activation 参数 改 为 tanh， 下 
面 我 们 逐一 展示 一 下 。 

现在 我 们 试看 给 МІР 分 类 器 增加 隐藏 层 数 量 ， 如 增加 到 2 层 。 在 Jupyter Notebook 
中 输入 代码 如 下 : 

# 设 置 神经 网 络 有 两 个 节点 数 为 10 的 隐藏 层 


mlp 2L=MLPClassifier (solver="'lbfgs', hidden layer sizes=[10,10]) 
mip 2L-HC(X train, у train) 

21 = mip 21.ргеаісі (пр.с [хх.гауе1 (), уу.гате1 () |) 

# 用 不 同色 彩 区 分 分 类 

21 = 21.гезПаре (хх.зПаре) 

plt.figure () 

plt.pcolormesh (хх, уу, 21, cmap=cmap light) 

# 用 散 点 图 画 出 x 

ріё.зсаііег (Х[:, 0], Х[:, 1], с=у, еддесо1ог-"К", .3=60) 
ріё.х1ім(хх.тіп(), хх.пах ()) 
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plt.ylim(yy.min(), yy.max()) 

# 设 定 图 题 
plt.title("MLPClassifier:2layers") 
# 显 示 图 形 

рі. зһом () 


运行 代码 ， 将 得 到 如 图 8-12 所 示 的 结果 。 


MLPClassifier:2layers 


11 12 13 14 15 
8-12 两 个 隐藏 层 ， 每 层 10 个 节点 的 МІР 分 类 器 


【 结果 分 析 】 和 图 8-11 对 比 ， 能 够 看 到 隐藏 层 的 增加 带 来 的 结果 就 是 决定 边界 看 起 
来 更 加 细腻 ， 下 面 我 们 再 使 用 activation='tanh' 实验 一 下 。 


输入 代码 如 下 : 


# 设 置 激活 函数 为 tanh 

mlp tanh=MLPClassifier (solver="lbfgs", hidden layer sizes=[10,10], 
activation='tanh') 

mip tanh. АЕ (Х ёгаіп, у Егатп) 

+ та 

22 = mlp tanh.predict (пр.с [хх.гауе1 (), уу. гауе1 () |) 


22 = 22. гезһаре (хх.зПаре) 

plt.figure () 

plt.pcolormesh (хх, уу, 22, cmap=cmap light) 
# 散 点 图 画 出 x 

рії.зсаїёег (Х[:, 0], Х[:, 1], cy, еадесо1ог='К', s=60) 
рі. х1ітю(хх.тіп(), хх.тах ()) 
plt.ylim(yy.min(), уу.тах ()) 

# 设 置 图 题 

plt.title("MLPClassifier:2layers with tanh") 
# 显 示 图 形 

рі. зһом () 


运行 代码 ， 将 会 得 到 如 图 8-13 所 示 的 结果 。 
MLPClassifier:2layers with tanh 


11 12 13 14 15 
8-13 两 个 节点 为 10 KWJ, activation 为 tanh 的 МІР 分 类 器 


【 结果 分 析 】 从 图 8-13 中 可 以 看 出 ， 将 activation 参数 修改 为 tanh 之 后 ， 分 类 器 的 
决定 边界 完全 变 成 了 平滑 的 曲线 。 这 就 是 我 们 对 样本 特征 进行 双 曲 线 正 切 化 后 的 结果 。 

当然 除了 上 述 方法 之 外 ， 我 们 还 可 以 通过 调节 alpha 值 来 进行 模型 复杂 度 控 制 ， 默 
认 的 alpha 值 是 0.0001, 现在 试 着 把 alpha 值 增加 ， 如 增加 到 1， 看 会 发 生 什么 样 的 变化 。 


输入 代码 如 下 : 
# 修 改 模型 的 alpha 参 数 


mlp а1рһа=МІРС1аззіћһег (solver="lbfgs', hidden layer sizes=[10,10], 
activation='tanh',alpha=1) 

mlp alpha.fit(X train, y train) 

# 重 新 绘制 图 形 

23 = mip alpha.predict (пр.с [хх.гауе1 (), уу.гауе1 () |) 


23 = 73.гезПаре (хх.зПаре) 

plt.figure () 

plt.pcolormesh (xx, уу, 23, cmap=cmap light) 
# 散 点 图 画 出 x 

plt.scatter(X[:, 0], X[:, 1], c=y, еадесо1ог='К', s=60) 
pit:-xlip{z£- min}; жх.шах()) 
plt.ylim(yy.min(), уу-шах()) 

# 设 定 图 题 

plt.title("MLPClassifier:alpha =1") 

# 显 示 图 形 

plt.show(} 


运行 代码 ， 会 得 到 如 图 8-14 的 结果 。 
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MLPClassifier:alpha=1 


11 12 13 14 15 
8-14 将 alpha 值 增加 到 1 之 后 的 决定 边界 


【 结果 分 析 】 从 图 8-14 中 可 以 看 出 ， 增 加 alpha 参数 的 数值 ， 会 加 大 模型 正则 化 的 程 
度 ， 也 就 会 让 模型 更 加 简单 。 到 目前 为 止 ， 我 们 有 4 种 方法 可 以 调节 模型 的 复杂 程度 了 ， 
第 一 种 是 调整 神经 网 络 每 一 个 隐藏 层 上 的 节点 数 ， 第 2 种 是 调节 神经 网 络 隐 藏 层 的 层 数 ， 
第 3 种 是 调节 activation 的 方式 , 而 第 4 种 , 便 是 通过 调整 alpha 值 来 改变 模型 正则 化 的 程度 。 


由 于 神经 网 络 算法 中 , 样本 特征 的 权重 是 在 模型 开始 学 习 之 前 , 就 已 经 随机 生成 了 。 
而 随机 生成 的 权重 会 导致 模型 的 形态 也 完全 不 一 样 。 所 以 如 果 我 们 不 指定 random_state 
的 话 ， 即 便 模型 所 有 的 参数 都 是 相同 的 ， 生 成 的 决定 边界 也 不 一 样 。 所 以 如 果 重 新 运行 
我 们 前 面 的 代码 ， 也 会 得 到 不 同 的 结果 。 不 过 不 用 担心 ， 只 要 模型 的 复杂 度 不 变 ， 其 预 
测 结果 的 准确 率 不 会 受 什么 影响 。 


8.3 ”神经 网 络 实例 一 一 手写 识别 


在 对 MLP 有 了 大 致 的 了 解 之 后 ， 我 们 让 小 C 开始 动手 解决 女 朋 友 小 I 实际 的 问题 。 
非常 好 的 一 点 是 ， 我 们 有 一 个 现成 的 数据 集 可 以 使 用 ， 就 是 MNIST 数据 集 。 在 神经 网 
络 的 学 习 中 ， 使 用 MNIST 数据 集训 练 图 像 识 别 ， 就 如 同 程序 员 刚 入 门 时 要 写 的 “hello 
world” 一 样 ， 是 非常 基础 的 必修 课 。 


深入 浅 出 Python 机 器 学 习 


8.3.1 使 用 MNIST 数 据 集 


MNIST 数据 集 是 一 个 专门 用 来 训练 各 种 图 像 处 理 系统 的 庞大 数据 集 ， 它 包含 70000 
个 手写 数字 图 像 ， 其 中 60000 个 是 训练 数据 ， 男 外 10000 个 是 测试 数据 。 而 在 机 器 学 习 
领域 ， 该 数据 集 也 被 广泛 用 于 模型 的 训练 和 测试 。MNIST 数据 集 实际 上 是 从 NIST 原始 
数据 集中 提取 的 ， 其 训练 集 和 测试 集 有 一 半 是 来 自 NIST 数据 集 的 训练 集 ， 而 男 一 半 是 
ЖА NIST 的 测试 集 。 目 前 有 大 量 的 学 术 论 文 都 在 试图 把 模型 对 MNIST 数据 集 的 识别 错 
误 率 不 断 降 低 ， 目 前 识别 错误 率 最 低 的 一 篇 论文 使 用 的 是 卷 积 神经 网 络 ， 成 功 地 把 错误 
率 降 到 了 0.23%。 而 最 早 创造 这 个 数据 集 的 学 者 ， 在 他 们 最 早 的 论文 中 使 用 了 支持 问 量 
机 算法 ， 使 模型 识别 的 错误 率 达 到 了 0.8%. 

接 下 来 我 们 就 用 scikit-learn 的 fetch_mldata 来 获取 MNIST 数据 集 ， 输 入 代码 如 下 : 

# 导 入 数据 集 获取 工具 


from sklearn.datasets import fetch mldata 
# 加 载 MNIST 手 写 数字 数据 集 

nnist = fetch mldata( MNIST огідіпа1') 
mnist 


运行 代码 ， 将 会 得 到 结果 如 图 8-15 Тя. 
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8-15 ”mnist 数据 集中 的 键 


【 结果 分 析 】 从 结果 中 看 出 ，MNIST 数据 集 包 含 两 个 部 分 : 一 个 是 数据 的 分 类 标 
签 (label) ; 另 一 个 是 数据 本 身 (даа) 。Data 的 类 型 是 无 符号 的 8 位 整 型 np 数组 ， 而 
target 是 从 0 到 9 的 整 型 数组 。 

接 下 来 ， 我 们 检查 一 下 数据 集中 的 样本 数量 和 样本 特征 数量 。 输 入 代码 如 下 : 


ргап6 ("Хоуп") 
print (' 代 码 运行 结果 : ') 


# 打 印 样本 数量 和 样本 特征 数 
print (ЖЕ. {}， 样 本 特征 数 : {}'.format (mnist.data.shape[0], 
mnist.data.shape[1])) 


图 8-16 数据 集中 样本 的 数量 和 特征 数量 


【 结果 分 析 】 从 结果 中 可 以 看 到 ， 数 据 集中 有 70000 个 样本 ， 每 个 样本 有 784 个 特 
征 。 这 是 因为 ， 数 据 集中 存储 的 样本 是 28X28 像素 的 手写 数字 图 片 的 像素 信息 ， 因 此 特 
征 数 为 28X28=784 个 。 在 开始 训练 MLP 神经 网 络 之 前 ， 我 们 还 需要 将 数据 进行 一 些 预 
处 理 ， 由 于 样本 特征 是 从 0 一 255 的 灰 度 值 ， 为 了 让 特征 的 数值 更 利于 建 模 ， 我 们 把 特 
征 问 量 的 值 全 部 除 以 255， 这 样 全 部 数值 就 会 在 0 和 1 之 间 ， 再 用 我 们 非常 熟悉 的 train_ 
test_split 函数 将 数据 集 分 为 训练 集 和 测试 集 。 现 在 输入 代码 如 下 : 

# 建 立 训 练 数据 集 和 测试 数据 集 


X = mnist.data/255. 
у = mnist.target 
Ж train, X гезе ү train, y тези = Erain test зръа 
X, у, Ёраіп size = 5000, безі зі2е=1000, random зёаёе=62) 


为 了 控制 神经 网 络 的 训练 时 长 ， 我 们 只 选 5000 个 样本 作为 训练 数据 集 ， 选 取 1000 
个 数据 作为 测试 数据 集 。 同 时 为 了 每 次 选取 的 数据 保持 一 致 ， 我 们 指定 random_state 为 
62。 读 者 朋友 在 实验 的 时 候 ， 可 以 自行 增加 训练 数据 集 或 测试 数据 集 的 样本 量 ， 也 可 以 
调整 random_state 的 数值 ， 看 每 次 训练 的 结果 会 有 什么 变化 。 


832 ”训练 MLP 神 经 网 络 


在 建立 好 训练 数据 集 和 测试 数据 集 之 后 ， 我 们 开始 训练 神经 网 络 ， 输 入 代码 如 下 : 


# 设 置 神经 网 络 有 两 个 100 个 节点 的 隐藏 层 

mlp hw = MLPClassifier (solver="lbfgs',hidden layer sizes=[100,100], 
activation= "ге1и", alpha = 1е-5, гапдош state=G2) 

# 使 用 数据 训练 神经 网 络 模型 

mlp hw.fit (X Егатп,у train) 

Printi поки") 

print (' 代 码 运 行 结 果 : ') 


рг INE ( я 三 二 二 三 二 三 二 二 二 寺 二 二 二 ============= 二 т ) 
# 打 印 模型 分 数 
全 下 了 而 大 测试 数据 集 得 分 : {: .2f}%" .format (mlp hw.score(X test,y test)*100)) 


рг int ( = 一 工 皇 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 1 ) 
ргіпі ( "\п\п\п') 


这 里 ， 我 们 设置 МІР 分 类 器 的 solver 参数 为 “lbfgs”， 同 时 建立 2 个 隐藏 展 ， 每 
层 有 100 个 节点 。Activation 参数 设置 为 “relu”， 正 则 项 参数 alpha 设置 为 le-5 也 就 是 
1х 10”, 80 0.00001。 设 置 好 模型 参数 之 后 ， 运 行 代 码 ， 会 得 到 结果 如 图 8-17 所 示 。 


8-17 МІР 神经 网 络 模型 得 分 


【 结果 分 析 】 从 结果 中 可 以 看 到 ， 模 型 在 测试 集中 的 识别 准确 率 达 到 了 93.6%， 可 
以 说 是 一 个 非常 不 错 的 分 数 了 。 


833 ”使 用 模型 进行 数学 识别 


接 下 来 看 下 模型 在 实际 应 用 中 表现 如 何 ， 随 便 用 一 个 图 像 测试 一 下 ， 这 里 测试 用 的 
图 片 如 图 8-18 所 示 。 


图 8-18 ”用 来 测试 模型 识别 准确 率 的 图 片 


因为 图 8-18 的 图 像 是 28 x 28 像素 ， 所 以 放大 后 看 起 来 会 不 够 清晰 。 


下 面 把 图 8-18 中 的 测试 图 像 转 化 为 模型 可 以 读 取 的 numpy 数组 ， 输 入 代码 如 下 : 
# 导 入 图 像 处 理工 具 


from PIL import Ітаде 

# 打 开 图 像 
1паде-Тшпаде .ореп (!4.рпа") .convert ("Е") 
# 调 整 图 像 的 大 小 
1паде-1шпаде.гез1г2е((28,28)) 

агг= || 


# 将 图 像 中 的 像素 作为 预测 数据 点 的 特征 


Гог і іп гапде (28): 
for j іп гапде (28): 
pixel = 1.0 - float (ітмаде.деїріхе1 ( (ј,і))) /255. 
агг .аррепа (pixel) 
# 由 于 只 有 一 个 样本 ， 所 以 需要 进行 reshape 操 作 
arrl = пр.аггау (агг) .reshape (1,—1) 
# 进 行 图 像 识 别 
print( "图片 中 的 数字 是 :{ :.0f}' .format (mlp hw.predict(arrl) 101)) 
在 这 一 段 代 码 中 ， 我 们 调用 了 python 内 置 的 图 像 处 理 库 PIL， 为 了 让 识别 的 效果 能 
够 达到 最 优 ， 我 们 首先 使 用 了 Image.convert 功能 将 图 片 转化 为 32 位 浮 点 灰色 图 像 ， 也 
就 是 说 它 的 每 个 像素 用 32 个 bit 来 表示 ，0 代表 黑 ，255 表示 白 。 而 后 将 每 个 像素 的 数值 


都 进行 除 以 255 的 处 理 ， 以 保持 和 数据 集 一 致 。 


由 于 MNIST 数据 集中 是 用 0 代表 和 白色， 而 1 代表 黑色 ， 因 此 我 们 还 要 用 1 减 去 像 
素 的 灰 度 值 ， 以 便 和 数据 集 一 致 。 


此 外 由 于 只 有 一 个 样本 ,我 们 还 要 对 其 进行 reshape(1,-1) 的 操作 。 下 面 运行 代码 ， 
会 得 到 结果 如 图 8-19 тт. 


8-19 ”模型 正确 识别 出 了 图 像 中 的 数字 


【 结果 分 析 】 从 结果 中 我 们 看 到 ， 神 经 网 络 正确 地 识别 出 了 图 片 中 的 数字 4， 效 果 
还 是 很 不 错 的 。 

当然 了 , 这 里 使 用 的 图 像 比较 标准 。 感 兴趣 的 读者 朋友 可 以 在 纸 上 用 笔 手 写 几 个 数字 ， 
拍 下 照片 再 用 神经 网 络 进行 识别 ， 看 识别 准确 率 究竟 如 何 。 


8.4 小 结 


在 本 章 中 ， 我 们 设 定 了 一 个 场景 一 一 让 小 C 训练 一 个 神经 网 络 帮助 女 朋 友 小 I 进行 
数字 图 像 的 识别 。 借 由 这 个 场景 ， 我 们 学 习 了 神经 网 络 的 起 源 和 发 展 历程 ， 并 初步 理解 
了 神经 网 络 算 法 中 多 层 感知 机 〈MLP) 的 原理 和 参数 设置 ， 最 后 我 们 使 用 了 MNIST 数 
据 集 训练 了 一 个 数字 识别 的 神经 网 络 模 型 。 当 然 ， 这 个 模型 主要 目的 还 是 进行 展示 ， 要 
想 真 的 实现 替代 人 工 完 成 票据 凭证 的 录入 ， 还 需要 做 很 多 工作 。 
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作为 一 种 命运 多 外 的 算法 , 神经 网 络 现在 又 以 一 种 王者 的 姿态 重 回 机 器 学 习 领 域 了 。 
要 说 明 一 下 的 是 ，scikit-learn 中 的 МІР 分 类 和 回归 在 易 用 性 方面 表现 确实 不 错 ， 但 是 仪 
限于 处 理 小 数据 集 。 对 于 更 庞大 或 更 复杂 的 数据 集 来 说 ， 它 就 显得 有 点 力不从心 。 所 以 
如 果 读 者 朋友 对 深度 学 习 有 兴趣 ， 可 以 更 进一步 了 解 现在 非常 流行 的 几 个 Python 深度 学 
习 库 ， 如 keras, theano 和 tensor-How， 其 中 keras 可 以 使 用 tensor-flow 和 theano 作为 后 
ўй (backend) 。 这 些 深度 学 习 库 都 支持 使 用 СРО 加 速 ， 而 scikit-learn 并 不 文 持 。 所 以 
在 处 理 超大 数据 集 的 时 候 ， 以 上 提 到 的 几 个 深度 学 习 库 都 要 比 scikit-learn 效率 更 高 。 

如 上 所 述 ， 神 经 网 络 可 以 从 超大 数据 集中 获取 信息 并 且 可 以 建立 极为 复杂 的 模型 ， 
所 以 在 计算 能 力 充足 并 且 参 数 设置 合适 的 情况 下 ， 神 经 网 络 可 以 比 其 他 的 机 器 学 习 算法 
表现 更 加 优异 。 但 是 它 的 问题 也 很 突出 ， 如 模型 训练 的 时 间 相 对 更 长 、 对 数据 预 处 理 的 
要 求 较 高 等 。 对 于 特征 类 型 比较 单一 的 数据 集 来 说 ， 神 经 网 络 的 表现 不 错 ; 但 如 果 数 据 
集中 的 特征 类 型 差异 比较 大 的 话 ， 随 机 森林 或 是 梯度 上 升 随 机 决策 树 等 基于 决策 树 的 算 
法 会 表现 更 好 。 

另外 ， 神 经 网 络 模型 中 的 参数 调节 也 是 一 门 艺 术 ， 尤 其 是 隐藏 层 的 数量 和 隐藏 层 中 
节点 的 数量 。 对 于 初学 者 来 说 ， 建 议 参 考 这 样 一 个 原则 ， 那 就 是 神经 网 络 中 隐藏 层 的 节 
点 数 约 等 于 训练 数据 集 的 特征 数量 ， 但 是 一 般 不 要 超过 500。 在 开始 训练 模型 的 时 候 ， 
可 以 让 模型 尽量 复杂 ， 然 后 再 对 正则 化 参数 alpha 进行 调节 来 提高 模型 的 表现 。 
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在 上 一 章 中 ， 小 C 为 了 帮助 女 朋 友 小 工 训练 一 个 手写 数字 识别 的 神经 网 络 ， 使 用 了 ММТ 
数据 集 。 不 知道 读者 朋友 们 是 否 记 得 ， 在 载 入 数据 集 的 时 候 ， 我 们 使 用 了 这 样 一 行 代 码 : 
Xmistdata/255 

这 行 代码 是 作用 是 什么 呢 ? 我 们 知道 ，MNIST 数据 集中 的 样本 特征 是 从 0 到 255 的 
灰 度 值 ,0 表示 白 ,而 255 代 表 黑 , 中 间 的 数值 代表 不 同 深度 的 灰色 。 通 过 除 以 255 的 操作 ， 
我 们 可 以 把 所 有 的 特征 值 限定 到 0 到 1 之 间 ， 从 而 有 助 于 提高 模型 的 准确 率 ， 这 就 是 一 
种 简单 的 数据 预 处理 (data preprocessing ) 。 那 么 为 什么 要 进行 数据 预 处 理 ? 数据 预 处 理 
的 方法 都 有 哪些 呢 ? 本草 将 和 读者 朋友 一 起 展开 探索 。 

本 章 主 要 涉及 的 知识 点 有 : 

э 几 种 常见 的 数据 预 处 理工 具 

э PCA 主 成 分 分 析 用 于 数据 降 维 

э PCA 主 成 分 分 析 和 NMEF 非 负 短 阵 分 解 用 于 特征 提取 

э 几 种 常用 的 聚 类 算法 
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9.1 数据 预 处 理 


9.1.1 使 用 StandardScaler 进 行 数 据 预 处 理 


首先 我 们 还 是 先 手工 生成 一 些 数据 ， 用 它们 来 说 明 数 据 预 处 理 的 一 些 原 理 和 方 
法 。 这 次 我 们 依旧 使 用 scikit-learn 的 make_blobs РЕЖ, ТЕ Jupyter Notebook 中 新 建 一 个 
notebook， 输 入 代码 如 下 : 


# 导 入 numpy 
import numpy as np 
# 导 入 画图 工具 
import matplotlib.pyplot аз pilt 
导入 数据 集 生成 工具 
сары sklearn.datasets import таке blobs 
= make Б1оБз (п затр1ез=40, сепіегз=2, random зіаёе=50, cluster std=2) 


Ялав 


рі.зсаііёег (Х[:,0], Х[:,1], cy, сшар-р1Е.сш.соо1) 
# 显 示 图 像 
和 DO 


运行 代码 ， 将 得 到 如 图 9-1 所 示 的 结果 。 
0 
-2 
-4 


-0 


-8 -6 -4 ма 0 f 4 6 
9-1 手工 生成 的 数据 集 
【 结果 分 析 】 我 们 在 使 用 make_blobs 函数 时 ， 指 定 了 样本 数量 n_samples 为 40， 分 
类 centers 为 2, 随机 状态 random_state 为 50, 标准 差 cluster_std 为 2。 从 图 9-1 中 可 以 看 到 ， 
数据 集中 的 样本 有 2 个 特征 ， 分 别 对 应 х ун, ЖЛЕ 1 的 数值 大 约 在 -8 到 7 之 间 ， 
而 特征 2 的 数值 大 约 在 -10 到 0 之 间 。 
接 下 来 ， 我 们 要 使 用 scikit-learn 的 preprocessing 模块 对 这 个 手工 生成 的 数据 集 进 行 
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预 处 理 的 操作 。 首 先 我 们 先 来 看 一 下 第 一 个 方法 : StandardScaler。 在 Jupyter Notebook 
中 输入 代码 如 下 : 


# 导 入 StandardScaler 

from sklearn.preprocessing import StandardScaler 

# 使 用 StandardSscaler 进 行 数据 预 处 理 

X 1 = StandardScaler () .fit transform (X) 

# 用 散 点 图 绘制 经 过 预 处 理 的 数据 点 

plt.scatter(X 1[:,0], X 1[:,1], c=y, cmap=plt .cm.cool) 
# 显 示 图 像 

ELE зһом () 


运行 代码 ， 将 会 得 到 如 图 9-2 所 示 的 结果 。 
2 


= =] 0 1 2 3 
9-2 经 过 StandardScaler 处 理 的 数据 


【 结果 分 析 】 对 比 图 9-2 和 图 9-1， 你 也 许 会 发 现 数据 点 的 分 布 情况 没有 什么 不 同 ， 
但 图 像 的 x 轴 和 了 轴 发 生 了 变化 。 现 在 数据 所 有 的 特征 1 的 数值 都 在 -2 到 3 之 间 ， 而 特 
征 2 的 数值 都 在 -3 到 2 之 间 。 这 是 因为 ，StandardScaler 的 原理 是 ， 将 所 有 数据 的 特征 
值 转换 为 均值 为 0， 而 方差 为 1 的 状态 ， 这 样 就 可 以 确保 数据 的 “大 小 ”都 是 一 致 的 ， 
这 样 更 利于 模型 的 训练 。 


9.1.2 使 用 MinMaxScaler 进 行 数据 预 处 理 


除了 StandardScaler 之 外 ， 还 有 其 他 一 些 不 同 的 方法 ， 下 面 我 们 来 看 第 二 个 方法 : 
MinMaxScaler。 在 Jupyter Notebook 中 输入 代码 如 下 : 


# 导 入 MinMaxScaler 

from sklearn.preprocessing import MinMaxScaler 
# 使 用 MinMaxScaler 进 行 数据 预 处 理 

X 2 = MinMaxScaler() .ft transform (X) 


COSI 
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# 绘 制 散 点 图 

plt.scatter(X 2[:,0], X 2[:,1],с=у, cmap=plt.cm.cool) 
# 显 示 图 像 

рі. зһом () 


运行 代码 ， 会 得 到 如 图 9-3 所 示 的 结果 。 
1.0 
0.8 
0.6 
0.4 
0.2 
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9-3 经 过 MinMaxScaler 处 理 的 数据 


【 结果 分 析 】 再 次 将 图 9-3 与 图 9-1、 图 9-2 进行 对 比 ， 可 以 看 到 这 次 所 有 数据 的 两 
个 特征 值 都 被 转换 到 0 到 1 之 间 。 对 于 我 们 使 用 make_blobs 生成 的 二 维 数据 集 ， 你 也 可 
以 想象 成 是 我 们 通过 MinMaxScaler 把 所 有 的 数据 压 进 了 一 个 长 和 宽 都 是 1 的 方 格子 当中 
了 ， 这 样 会 让 模型 训练 的 速度 更 快 且 准 确 率 也 会 提高 。 


9.1.3 使 用 RobustScaler 进 行 数据 预 处 理 


还 有 一 种 数据 转换 的 方法 ， 和 StandardScaler 比较 近似 ， 但 是 它 并 不 是 用 均值 和 方差 
来 进行 转换 ， 而 是 使 用 中 位 数 和 四 分 位 数 。 这 种 方法 称 为 RobustScaler， 我 个 人 特别 喜欢 
把 这 种 方法 翻译 成 “粗暴 缩放 ”， 因 为 它 会 直接 把 一 些 异 常 值 跑 出 去 ， 有 点 类 似 我 们 看 
体育 节目 中 评委 常 说 的 “去 掉 一 个 最 高 分 ， 去 掉 一 个 最 低 分 ”这 样 的 情况 。 下 面 我 们 来 
看 看 RobustScaler КН 2 ж, ТЕ Jupyter Notebook 中 输入 代码 如 下 : 


# 导 入 RobustScaler 

from sklearn.preprocessing import RobustScaler 

# 使 用 RobustScaler 进 行 数据 预 处 理 

X 3 = RobustScaler() .ft transform (X) 

# 绘 制 散 点 图 

plt.scatter (X 3[:,0],X 3[:,1],с=у, cmap=plt.cm.cool) 
# 显 示 图 像 

рі. зһом () 
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运行 代码 ， 会 得 到 如 图 9-4 所 示 的 结果 。 


-15 -0 -05 0.0 0.5 1.0 1.5 2.0 
9-4 经 过 КоБизбсайег 处 理 的 数据 


【 结果 分 析 】 从 图 9-4 中 可 以 看 到 ，RobustScaler 将 数据 的 特征 1 控制 在 了 -1.5 到 2 
之 间 ， 而 特征 2 控制 在 了 -2 到 1.5 之 间 。 和 StandardScaler 非常 类 似 , 但 因为 其 原理 不 同 ， 
所 得 到 的 结果 也 有 所 不 同 。 


9.1.4 ”使 用 Normalizer 进 行 数据 预 处 理 


下 面 我 们 再 来 看 一 个 比较 特殊 的 方法 ， 称 为 Normalizer， 这 种 方法 将 所 有 样本 的 特 
征 问 量 转化 为 欧 几 里 得 距离 为 1 。 也 就 是 说 ， 它 把 数据 的 分 布 变 成 一 个 半径 为 1 的 圆 ， 
或 者 是 一 个 球 。Normalizer 通常 是 在 我 们 只 想 保留 数据 特征 癌 量 的 方 辐 ， 而 忽略 其 数值 
的 时 候 使 用 。 下 面 我 们 还 是 用 图 像 来 展示 Normalizer 的 工作 方式 ， 在 Jupyter Notebook 
中 输入 代码 如 下 : 


# 导 入 Normalizer 

from sklearn.preprocessing import Normalizer 

# 使 用 Normalizer 进 行 数 据 预 处 理 

X 4 = Normalizer() АЕ transform (X) 

# 绘 制 散 点 图 

plt.scatter(X 4[:,0], X 4[:,1], c=y, cmap=plt .cm.cool) 
# 显 示 图 像 

рі. зһом () 


运行 代码 ， 会 得 到 如 图 9-5 所 示 的 结果 。 


深入 浅 出 Python 机 器 学 习 


-1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 0.75 
9-5 经 过 Normalizer 处 理 的 数据 


【 结果 分 析 】 可 以 说 ， 在 我 们 介绍 的 集中 方法 中 ，Normalizer 是 把 原始 数据 变 
得 最 “面目 全 非 ” 的 方法 了 。 除 此 之 外 ， 在 scikit-learn 中 ， 还 有 MaxAbsScaler、 
QuantileTransformer、Binarizer 等 数据 预 处 理 的 方法 ， 在 此 我 们 先 不 做 详细 介绍 ， 感 兴趣 
的 读者 朋友 可 以 到 Scikit-learn 官方 网 站 查阅 相关 的 文档 。 


91.5 ”通过 数据 预 处 理 提高 模型 准确 率 

相信 看 到 这 里 ， 读 者 朋友 们 可 能 会 有 一 个 问题 : 究竟 我 们 对 数据 进行 预 处 理 的 意义 
是 什么 呢 ? 它 真 的 可 以 让 模型 的 训练 结果 更 好 吗 ? 为 了 搞 清 楚 这 一 点 ， 我 们 使 用 酒 的 数 
据 集 来 测试 一 下 。 在 Jupyter Notebook 中 输入 代码 如 下 : 


# 导 入 红酒 数据 集 

from sklearn.datasets import load wine 

# 导 入 MLP 神 经 网 络 

from sklearn.neural network import MLPClassifier 
# 导 入 数据 集 拆 分 工具 


from sklearn.model selection import train test split 


# 建 立 训 练 集 和 测试 集 


wine = Load міпе () 

X Crain, Х езі, у Егатп, у test = Erain test split (и1пе.даса, міпе.Гіагдеї, 
random state=62) 

# 打 印 数据 形态 


print (Х train.shape, X test.shape) 
运行 代码 ， 可 以 得 到 结果 如 图 9-6 Ро. 
【 结果 分 析 】 这 表示 ， 我 们 已 经 成 功 地 将 数据 集 拆 分 为 训练 集 和 测试 集 ， 训 练 集中 
的 样本 数量 为 133 个 ， 而 测试 集中 的 样本 数量 为 45 个 。 
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9-6 训练 集 和 测试 集 的 数据 形态 


下 面 我 们 用 训练 数据 集 来 训练 一 个 МІР 神经 网 络 ， 再 看 下 该 神经 网 络 在 测试 集中 的 


# 设 定 MLP 神 经 网 络 的 参数 


mlp = MLPClassifier (hidden layer sizes=[100,100],max iter=400, 
random state=62) 

# 使 用 MLP 拟 合 数据 

штр.БЕ (Х train, у train) 


# 打 印 模型 得 分 

print ( ' 模 型 得 分 : {:.2f}"' .format (шр.зсоге (Х test, у test))) 

这 里 我 们 设 定 МІР 的 隐藏 层 为 2 个 ， 每 层 有 100 ATA, БАЛАК) 400, ЖН 
指定 了 random_state 的 数值 为 62， 这 是 为 了 在 我 们 重复 使 用 该 模型 的 时 候 ， 其 训练 的 结 
果 都 是 一 致 的 。 运 行 代码 ， 会 得 到 如 图 9-7 所 示 的 结果 。 


9-7 未 经 数据 预 处 理 时 的 模型 得 分 


【 结果 分 析 】 在 没有 经 过 预 处 理 的 情况 下 ， 模 型 的 得 分 只 有 0.24， 可 以 用 惨不忍睹 
来 形容 。 
下 面 我 们 试看 对 数据 集 进 行 一 些 预 处 理 的 操作 ， 输 入 代码 如 下 : 
# 使 用 MinMaxScalezr 进 行 数据 预 处 理 


scaler = MinMaxScaler() 

scaler.fit (X train) 

X train pp = scaler.transform(X train) 

Х test pp = зсаТег.ЕгапзЕогш (Х test) 

# 重 新 训练 模型 

штр.БЕ (Х train рр, у train) 

# 打 印 模型 分 数 

Print(' 数 据 预 处 理 后 的 模型 得 分 :{:.2f}'.format (шр.зсоге (X test рр,у test) ) ) 


运行 代码 ， 会 得 到 一 个 让 人 惊喜 的 结果 ， 如 图 9-8 所 示 。 


9-8 经 过 数据 预 处 理 后 的 模型 评分 
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【 结果 分 析 】 可 以 看 到 ， 经 过 了 预 处 理 之 后 的 数据 集 ， 大 大 提升 了 神经 网 络 的 准确 
率 ， 从 未 经 过 预 处 理 的 模型 得 分 0.24， 直 接 提升 到 了 进行 预 处 理 之 后 的 1.00， 也 就 是 说 ， 
在 经 过 数据 预 处 理 之 后 ，MLP 神经 网 络 在 测试 数据 集中 进行 了 完美 的 分 类 ! 


在 上 面 的 代码 中 ， 我 们 先 用 MinMaxScaler 拟 合 了 原始 的 训练 数据 集 ， 再 用 它 去 转 
换 原 始 的 训练 数据 集 和 测试 数据 集 。 切 记 不 要 用 它 先 拟 合 原始 的 测试 数据 集 ， 再 去 转换 
测试 数据 集 ， 这 样 做 就 失去 了 数据 转换 的 意义 。 


9.2 ”数据 降 维 


在 经 过 了 前 面 看 干 章节 的 阅读 之 后 ， 不 知道 读者 朋友 们 会 不 会 有 这 样 一 个 疑问 : 在 
我 们 的 数据 集中 ， 样 本 往往 会 有 很 多 特征 ， 那 么 这 些 特征 都 是 同样 重要 的 吗 ? 是 否 有 一 
些 关 键 的 特征 对 预测 结果 起 看 决定 性 的 作用 呢 ? 


9.2.1 PCA 主 成 分 分 析 原 理 


这 是 一 个 非常 好 的 问题 。 举 个 例子 ， 假 如 小 C 想 要 买 一 辆 车 以 便 节 假日 可 以 带 女 朋 
友 小 工 出 去 郊游 ， 但 是 现在 市 场 上 的 汽车 品牌 和 型 号 都 数目 繁多， 究竟 该 如 何 选择 呢 ? 
还 有 一 点 要 考虑 的 是 小 1 得 喜欢 这 辆 车 才 行 啊 ! 当然 每 个 型 号 的 汽车 都 有 诸多 特征 ， 这 
里 假设 我 们 在 预算 范围 限定 的 前 提 下 ， 只 看 两 个 特征 : 一 个 是 动力 ; 男 一 个 是 外 观 。 然 
后 小 C 把 一 些 车 辆 的 特征 做 成 数据 集 ， 并 且 拿 给 小 1 看， 有些 车 是 小 1 谊 欢 的 (用 笑脸 
表示 ) ， 有 些 是 小 I 不 喜欢 的 《用 疾 脸 表示 ) ， 我 们 可 以 画 一 个 如 图 9-9 所 示 的 图 形 。 
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从 图 9-9 中 ， 我 们 可 以 直观 地 看 出 汽车 外 观 对 小 工 的 喜好 影响 比较 大 ， 而 性 能 则 影 
啊 相 对 较 小 。 这 样 我 们 可 以 在 图 中 添加 一 点 标注 ， 如 图 9-10 所 示 。 


9-10 对 数据 点 添加 主 成 分 标注 


在 图 9-10 中 ， 我 们 把 数据 点 分 布 最 “长 ”的 方 问 标注 为 “成 分 1”， 而 与 之 成 90° 
角 的 方向 标注 为 “成 分 2”。 那 假如 现在 ， 我 们 让 “成 分 2” 取 值 都 为 0， 而 把 “成 分 1” 
作为 横 坐 标 ， 重 新 画 这 个 图 ， 会 变 成 什么 样子 呢 ? 如 图 9-11 所 示 。 


图 9-11 去 掉 成 分 2 后 的 数据 集 


从 图 9-11 中 我 们 看 出 ， 经 过 这 样 的 处 理 之 后 ， 数 据 集 从 一 个 散 点 组 成 的 面 变 成 了 一 
条 直线 ， 也 就 是 从 二 维 变 成 了 一 维 。 这 就 是 数据 降 维 的 意思 ， 而 这 里 我 们 用 到 的 方法 ， 
称 为 主 成 分 分 析 法 (Principal Component Analysis, PCA) 。 当 然 ， 为 了 便于 展示 ， 我 们 
这 里 用 了 一 个 二 维 数据 降 到 一 维 的 例子 ， 而 在 现实 世界 的 数据 分 析 当 中 ， 有 些 数据 集 的 
维度 会 达到 上 二 其 至 上 万 , 这 样 如 果 不 进行 数据 降 维 操作 的 话 , 对 于 机 器 学 习 模 型 来 说 ， 
处 理 的 过 程 可 能 会 非常 缓慢 。 另 外 ， 还 会 有 一 些 特征 之 间 有 非常 强烈 的 相关 性 ， 比 如 人 
口 数 据 集中 ， 如 果 性 别 为 男 这 一 列 取 值 为 1， 则 性 别 为 女 这 一 列 取 值 只 能 是 0， 去 挤 其 中 
任何 一 列 不 会 丢失 任何 信息 , 在 这 种 情况 下 , 我 们 就 会 进行 降 维 , 以 便 降 低 模型 的 复杂 度 。 
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9.22 ”对 数据 降 维 以 便于 进行 可 视 化 


下 面 我 们 还 是 以 酒 的 数据 集 为 例 ， 首 先 为 大 家 展示 一 下 PCA 主 成 分 分 析 法 的 使 用 。 
在 Jupyter Notebook 中 输入 代码 如 下 : 
# 导 入 数据 预 处 理工 具 


from sklearn.preprocessing import StandardScaler 
# 对 红酒 数据 集 进行 预 处 理 

scaler = StandardsScaler () 

Х = wine.data 

y = wine.target 

Х scaled = scaler.fit transform (X) 

# 打 印 处理 后 的 数据 集 形 态 


print (X зса1еа.зһаре) 


在 这 一 步 中 ， 我 们 首先 使 用 StandardScaler 对 数据 进行 了 转换 ， 运 行 代码 我 们 会 得 到 


如 图 9-12 所 示 的 结果 。 


9-12 ”数据 集中 的 样本 数 和 特征 数量 


【 结果 分 析 】 现 在 的 数据 集中 ， 样 本 数量 为 178 个 ， 而 特征 数量 依然 是 13 个 。 接 下 
来 我 们 导入 PCA 模块 并 对 数据 进行 处 理 。 


输入 代码 如 下 : 
# 导 入 PCA 


from sklearn.decomposition import PCA 
# 设 置 主 成 分 数量 为 2 以 便 我 们 进行 可 视 化 

pca = РСА(п components=2) 
рса.һё (X scaled) 

X pca = pca.transform(X scaled) 

# 打 印 主 成 分 提取 后 的 数据 形态 


print (X рса.зПаре) 


因为 PCA 主 成 分 分 析 法 属于 无 监督 学 习 算 法 , 所 以 这 里 只 对 X_scaled 进行 了 拟 合 ， 
而 并 没有 涉及 分 类 标签 y。 


运行 代码 ， 会 得 到 如 图 9-13 所 示 的 结果 。 


им. Fi 


图 9-13 ”经 过 主 成 分 提取 之 后 的 数据 形态 
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【 结果 分 析 】 从 结果 中 可 以 看 出 ， 数 据 集 的 样本 数量 仍然 是 178 个 ， 而 特征 数量 只 
剩 下 2 个 了 。 


下 面 我 们 用 经 过 РСА 降 维 的 数据 可 视 化 情况 ， 输 入 代码 如 下 : 
# 将 三 个 分 类 中 的 主 成 分 提取 出 来 


ХО = Х рса [міпе.ёагадеї==0] 

Х1 = X рса[міпе.іёагдеі==1] 

X2 = X рса[міпе.їіагдеі==2] 

#22 ВХ ла 9 

рії. зсаіёег (ХО [:,0],Хх0[:,1],с='ЫЬ', з=60, еддесо1ог-"К") 
р1с.зсагтег (Х1[:,0],Х1[:,1],с='9', 5=60, еддесо1ог-"К") 
plt.scatter (Х2[:,0],Хх2[:,1],с='г', з=60, еддесо1ог-"К") 
# 设 置 图 注 

р1 с. 1едепа (міпе.іагдеі names, 1ос='резі') 
plt.xlabel('component 1") 

plt.ylabel('component 2") 

# 显 示 图 像 

рі. зһом () 


运行 代码 ， 会 得 到 如 图 9-14 所 示 的 结果 。 


component 2 


component 1 


9-14 经 过 PCA 降 维 的 酒 数据 集 


【 结果 分 析 】 在 之 前 的 章节 中 ， 为 了 进行 可 视 化 ， 只 能 取 酒 数据 集 的 前 两 个 特征 ， 而 
砍 反 了 其 余 的 11 个 特征 ， 这 当然 是 不 科学 的 。 现 在 好 了 ， 我 们 可 以 使 用 РСА 主 成 分 分 析 
法 将 数据 集 的 特征 回 量 降 至 二 维 ， 从 而 轻松 进行 可 视 化 处 理 ， 同 时 又 不 会 丢失 太 多 的 信息 。 


9.2.3 ”原始 特征 与 PCA 主 成 分 之 间 的 关系 
相信 有 些 读者 朋友 可 能 又 有 了 新 的 问题 ， 那 就 是 ， 原 来 的 13 个 特征 和 经 过 PCA 降 


深入 浅 出 Python 机 器 学 习 


维 后 的 两 个 主 成 分 是 怎样 的 关系 呢 ? 如 果 要 从 数学 的 角度 来 说 ， 我 们 可 能 要 讲 清 楚 什 么 
是 内 积 和 投影 。 不 过 鉴于 我 们 不 打算 深入 研究 数学 问题 ， 这 里 还 是 用 画图 的 方式 来 说 明 
这 个 问题 。 现 在 输入 代码 如 下 : 

# 使 用 主 成 分 绘制 热度 图 


plt.matshow(pca.components_, cmap='plasma') 

# 纵 轴 为 主 成 分 数 

Plt.yticks([0,1],[ component 1','component 2" |) 

Blit.colorbarf{) 

# 横 轴 为 原始 特征 数量 

plt.xticks(range(len(wine.feature names)) ,wine.feature_names ， 
rotation=60 ,ha= left ) 

# 显 示 图 像 

plt.show() 


运行 代码 ， 会 得 到 如 图 9-15 所 示 的 结果 。 


component 1 


component 2 


图 9-15 主 成 分 与 各 特征 值 之 间 的 关系 


【 结果 分 析 】 现 在 我 们 来 解释 一 下 图 9-15， 在 本 图 中 ， 颜 色 由 深 至 浅 代 表 一 个 
从 -0.5 一 0.4 之 间 的 数值 。 而 在 两 个 主 成 分 中 ， 分 别 涉 及 了 所 有 的 13 个 特征 。 如 果 某 个 
特征 对 应 的 数字 是 正 数 ， 说 明 它 和 主 成 分 之 间 是 正 相 关 的 关系 ， 如 果 是 负数 则 相反 。 
现在 又 出 现 了 新 的 问题 ， 在 实际 的 使 用 当中 ， 我 们 应 该 如 何 设 置 PCA Па 
components 参数 呢 ? 这 里 告诉 大 家 一 个 小 守门 : 在 scikit-learn 中 ，PCA 的 n_components 
不 仅 可 以 代表 成 分 的 个 数 ， 还 可 以 设置 为 降 维 之 后 保留 信息 的 百分比 ， 例 如 我 们 希望 降 
维 之 后 保留 原 特征 90% 的 信息 ， 那 么 就 可 以 设置 n_components 为 0.9. 


9.3 ”特征 提取 


通过 上 面 两 个 小 节 的 学 习 ， 我 们 可 以 总 结 出 一 个 idea， 那 就 是 有 些 时 候 ， 我 们 通过 
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对 数据 集 原 来 的 特征 进行 转换 ， 生 成 新 的 “特征 ”或 者 说 成 分 ， 会 比 直接 使 用 原始 的 特 
征 效果 要 好 。 现 在 我 们 再 引入 一 个 新 的 名 词 ， 称 为 “数据 表达 ” (data representation) . 
在 数据 集 极为 复杂 的 情况 下 ， 比 如 图 像 识 别 ， 数 据 表 达 就 显得 十 分 重要 。 因 为 图 像 是 有 
成 和 上 万 个 像素 组 成 ， 每 个 像素 上 又 有 不 同 的 RGB 色彩 值 ， 所 以 我 们 要 用 到 一 个 新 的 数 
据 处 理 方法 ， 称 为 “特征 提取 ” (feature extraction) 。 


9.3.1 PCA 主 成 分 分 析 法 用 于 特征 提取 


我 们 在 上 9.2 节 中 ， 介 绍 了 如 何 使 用 РСА 主 成 分 分 析 法 进行 数据 降 维 ， 接 下 来 我 们 
还 要 介绍 РСА 在 特征 提取 方面 的 使 用 。 这 次 我 们 使 用 一 个 相对 复杂 一 点 的 数据 集 一 一 
LFW 人 脸 识 别 数据 集 。 

LFW 人 脸 识 别 数 据 集 包 含 了 若干 张 JPEG 图 片 ， 是 从 网 上 搜集 的 一 些 名 人 的 照片。 
每 张 照片 都 是 一 个 人 的 脸 部 。 而 创建 这 个 数据 集 的 目的 ， 是 训练 机 器 学 习 算 法 ， 看 给 出 
两 个 照片 ， 算 法 是 否 能 判断 出 这 两 个 人 是 否 是 同一 个 人 。 后 来 人 们 对 机 器 又 提出 了 更 高 
的 要 求 : 给 出 一 张 不 在 数据 集中 的 人 脸 照 片 ， 让 机 器 判断 这 张 照片 是 否 属于 该 数据 集中 
的 某 一 个 人 ， 并 且 要 叫 出 他 /她 的 名 字 。 

下 面 让 我 们 来 初步 了 解 一 下 这 个 数据 集 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 

# 导 入 数据 集 获取 工具 


from sklearn.datasets import fetch lfw people 
# 载 入 人 脸 数 据 集 
faces = Ғеісһ | Ри реор1е (тіп faces рег регзоп-20, гез12е-0.8) 
image Shape = Ғасеѕ.ітадеѕ [0] .shape 
# 将 照片 打印 出 来 
fig, axes = plt.subplots(3,4,figsize=(12,9), 
subplot _kw={'"xticks': (),'yticks':()}) 
for target,image,ax in zip (faces.target, Гасез.1падез,ахез.гате1 ()): 
ax.imshow (image, cmap=plt.cm.gray) 
ах.зеі іі1Іе (Ғасез.іагдеі папез | Сагает |) 
# 显 示 图 像 
plt.show () 


运行 代码 ， 会 得 到 如 图 9-16 所 示 的 结果 。 
【 结果 分 析 】 从 图 9-16 中 可 以 看 出 LFW 人 脸 数 据 集中 图 像 的 大 概 样子 。 有 个 彩蛋 : 
图 中 左上 角 第 一 张 照片 来 目 著 名 影星 微 诺 娜 。 玉 德 ， 喜 欢 电 影 的 朋友 可 能 会 记得 她 在 《前 
刀 手 爱德华 》 或 是 《小 妇 人 》 中 的 惊艳 亮相 。 要 想 在 加 载 LFW 人 脸 数 据 集 时 能 载 入 她 的 
有 照片， 请 把 min_faces_per_person 参数 设 为 20. 
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9-16 LFW 人 脸 数 据 集中 的 部 分 照片 


接 下 来 ， 咀 们 在 数据 未 经 处 理 的 情况 下 ， 尝 试 训练 一 个 神经 网 络 ， 看 看 效果 如 何 。 


输入 代码 如 下 : 
# 导 入 神经 网 络 


from sklearn.neural network import MLPClassifier 

对 数据 集 进行 拆 分 

X train, X безі, у train, у test = train безі split(faces.data/255, 

faces.target, 

random зёаёе=62) 

# 训 练 神经 网 络 

mlp=MLPClassifier (hidden layer sizes=[100,100], random state=62, 

max iter=400) 
mop hex train, у train) 
# 打 印 模型 准确 率 


print ( ' 模 型 识别 准确 率 : {:.2f}' .format (mlp.score (X test, у test))) 


运行 代码 ， 会 得 到 如 图 9-17 所 示 的 结果 。 


ETTER в.г 


图 9-17 模型 识别 准确 率 仅 为 0.52 


【 结果 分 析 】 从 结果 中 可 以 看 到 ， 在 使 用 了 2 个 节点 数 为 100 的 隐藏 层 时 ， 神 经 网 
络 的 识别 准确 率 只 有 0.52， 也 就 是 说 ， 有 接近 一 半 的 照片 是 识别 错误 的 。 (其 实 还 好 了 ， 
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毕竟 这 个 数据 集 里 有 62 个 人 ， 能 在 短 短 几 秒 内 记 住 30 多 个 人 的 脸 ,已经 很 不 容易 了 。) 

但 是 我 们 还 不 满足 于 此 ， 接 下 来 我 们 使 用 一 些 方法 来 提升 模型 的 表现 。 第 一 个 要 用 
到 的 就 是 PCA 主 成 分 分 析 法 中 的 数据 白化 功能 (data whiten) 。 

那么 什么 是 数据 白化 呢 ?” 拿 我 们 这 个 例子 来 说 , 虽然 每 个 人 的 面部 特征 有 很 大 差异 ， 
但 如 果 你 从 像素 级 别 观察 ， 差 距 其 实 就 没有 那么 大 了 。 而 且 相 邻 的 像素 之 间 有 很 大 的 相 
关 性 ， 这 样 一 来 ， 样 本 特征 的 输入 就 是 见 余 的 了 ， 白 化 的 目的 就 是 为 了 要 降低 见 余 性 。 
所 以 白化 的 过 程 会 让 样本 特征 之 间 的 相关 度 降低 ， 且 所 有 特征 具有 相同 的 方差 。 

下 面 我 们 用 PCA 的 白化 功能 处 理 一 下 LFW 人 脸 数 据 集 ， 输 入 代码 如 下 : 

# 使 用 白化 功能 处 理 人 脸 数据 


рса = PCA(whiten=True, п components=0.9, random state=62) .fit (X train) 
X train whiten = pca.-transform(X train) 

X test whiten = pca.transform(X test) 

# 打 印 白化 后 数据 形态 

ргап (" 白化 后 数据 形态 : {} 5 .format (x train whiten.shape)) 


这 里 我 们 要 求 РСА 保留 原始 特征 中 90% 的 信息 ， 所 以 参数 n_components 指定 为 0.9. 
运行 代码 ， 会 得 到 如 图 9-18 所 示 的 结果 。 


图 9-18 经 过 白化 处 理 的 数据 形态 


【 结果 分 析 】 从 结果 中 可 以 看 到 ， 经 过 РСА 白化 处 理 的 数据 成 分 为 105 个 ， 远 远 小 
于 原始 数据 的 特征 数量 87X65=5655 个 。 
下 面 我 们 来 看 看 经 过 白化 后 神经 网 络 识 别 的 准确 率 有 什么 变化 。 输 入 代码 如 下 : 
# 使 用 白化 后 的 数据 训练 神经 网 络 


mlp.fit (X train whiten, у train) 

# 打 印 模型 准确 率 

print(' 数 据 白 化 后 模型 识别 准确 率 :{ : .2f}'.format (mlp.score(X test whiten, 
у безі))) 


运行 代码 ， 会 得 到 如 图 9-19 所 示 的 结果 。 


图 9-19 数据 白化 后 的 模型 准确 率 
【 结果 分 析 】 从 结果 中 可 以 看 到 ， 模 型 的 准确 率 轻微 地 提高 了 ， 达 到 了 57%。 这 说 
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НН РСА 的 数据 白化 功能 对 于 提高 神经 网 络 模型 的 准确 率 是 有 一 定 帮 助 的 。 


9.3.2” 非 负 算 阵 分 解 用 于 特征 提取 


除了 PCA 之 外 ，scikit-learn 中 还 封装 了 非 负 和 矩阵 分 解 (Non-Negative Matrix 
Factorization, NMF) „ NMF 也 是 一 个 无 监督 学 习 算法 ， 同 样 可 以 用 于 数据 的 特征 提取 。 
那么 NMF 和 РСА 有 什么 不 同 呢 ? 

首先 我 们 要 先 明 白 什么 是 矩阵 分 解 ， 所 谓 窍 阵 分 解 就 是 把 一 个 矩阵 拆 解 为 了 个 矩阵 
的 乘积 。 而 非 负 矩阵 分 解 ， 顾 名 思 义 ， 就 是 原始 的 矩阵 中 所 有 的 数值 必须 大 于 或 等 于 0, 
当然 分 解 之 后 的 矩阵 中 数据 也 是 大 于 或 等 于 0 的 。 用 一 个 比较 简单 的 方式 来 理解 NMF 
的 话 ， 我 们 可 以 想象 一 下 有 一 堆 特 征 值 混乱 无 序 地 堆放 在 空间 中 ， 而 NMEF 可 以 看 成 是 
从 坐标 原点 (0, 0) 引出 一 个 (或 几 个 ) 回 量 ， 用 这 个 (或 这 些 ) 同 量 ， 尽 可 能 地 把 原 
始 特 征 值 的 信息 表达 出 来 ， 如 图 9-20 я. 


原始 特征 2 


原始 特征 1 
9-20 “ 非 负 和 矩阵 分 解 NMF 


与 PCA 不 同 的 是 ， 如 果 我 们 降低 NME 的 成 分 数量 ， 它 会 重新 生成 新 的 成 分 ， 而 新 
的 成 分 和 原来 的 成 分 是 完全 不 一 样 的 。 男 外 ，NMEF 中 的 成 分 是 没有 顺序 的 ， 这 点 和 PCA 
也 有 所 不 同 。 下 面 我 们 试 一 试 使 用 NMF 对 LEW 人 脸 数 据 集 进行 特征 提取 ， 再 重新 训练 
神经 网 络 ， 看 看 模型 的 识别 准确 率 是 否 有 所 变化 。 输 入 代码 如 下 : 


# 导 入 NMF 

from sklearn.decomposition import NMF 

# 使 用 NMF 处 理 数 据 

nmf = NMF (n_components=105,random state=62) .Ғії (Х train) 
X train nmf = nmf.transform(X train) 

X test nmf = nmf.transform(X test) 

# 打 印 NMF 处 理 后 的 数据 形态 


print (' NMF 处 理 后 数据 形态 : {} .format (Х га п пт. зНаре)) 
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公平 起 见 ， 我 们 设置 ММЕ 的 n_components 参数 和 PCA 的 一 致 ， 都 为 105 个 。 运 行 
代码 (这 次 要 等 的 时 间 可 能 要 长 一 些 ) ， 会 得 到 如 图 9-21 所 示 的 结果 。 


ма аВБАМЕ“. ггг, мн] 


9-21 ”经 过 NMF 处 理 的 数据 形态 


#1 PCA RE, NMF 的 n_components 参数 不 支持 使 用 浮 点 数 ， 只 能 设置 为 正 的 整 
型 数 。 


接 下 来 我 们 用 NMF 处 理 后 的 数据 训练 神经 网 络 ， 输 入 代码 如 下 : 
# 用 NMF 处 理 后 的 数据 训练 神经 网 络 


mlp.fit (Xx train nmf, у train) 


# 打 印 模型 准确 率 

print ('"nmf 处 理 后 模型 准确 率 : {:.2f}'.format (шр.зсоге(Х безі nmf, 
本 

运行 代码 ， 会 得 到 如 图 9-22 所 示 的 结果 。 
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9-22 ”数据 经 过 ММЕ 处 理 后 的 模型 得 分 


【 结果 分 析 】 从 结果 中 可 以 看 出 ，NMEF 处 理 后 的 数据 训练 的 神经 网 络 模型 准确 率 和 
РСА 处 理 后 的 模型 准确 率 基 本 持平 ， 略 微 低 一 点 点 。 


9.4 聚 类 算法 


可 能 读者 朋友 们 还 记得 我 们 在 第 1 章 中 就 提 到 过 , 有 监督 学 习 主 要 用 于 分 类 和 回归 ， 
而 无 监督 学 习 的 一 个 非常 重要 的 用 途 就 是 对 数据 进行 聚 类 。 当 然 了 ， 聚 类 和 分 类 有 一 定 
的 相似 之 处 ， 分 类 是 算法 基于 已 有 标签 的 数据 进行 学 习 并 对 新 数据 进行 分 类 ， 而 聚 类 则 
是 在 完全 没有 现 有 标签 的 情况 下 ， 有 算法 “猜测 ”哪些 数据 像 是 应 该 “ 堆 ” 在 一 起 的 ， 
并 且 让 算法 给 不 同 的 “ 堆 ” 里 的 数据 贴 上 一 个 数字 标签 。 在 本 节 中 ， 我 们 会 重点 了 解 K 
均值 (k-Means) RE., RRR, UK DBSCAN 这 几 个 算法 。 
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在 各 种 聚 类 算法 中 ， 天 均值 聚 类 算法 可 以 说 是 最 简单 的 。 但 是 简单 不 代表 不 好 用 ， 天 
均值 绝对 是 在 聚 类 中 用 的 最 多 的 算法 。 它 的 工作 原理 是 这 样 的 :假设 我 们 的 数据 集中 的 
样本 因为 特征 不 同 ， 像 小 沙 堆 一 样 散 布 在 地 上 ,， 天 均值 算法 会 在 小 沙 堆 上 插 上 旗子 。 而 
第 一 所 插 的 旗子 并 不 能 很 完美 地 代表 沙 挫 的 分 布 ， 所 以 天 均值 还 要 继续 ， 让 每 个 旗子 能 
够 插 到 每 个 沙 扒 最 佳 的 位 置 上 ， 也 就 是 数据 点 的 均值 上 ， 这 也 是 天 均值 算法 名 字 的 由 来 。 
接 下 来 会 一 直 重 复 上 述 的 动作 ， 直 到 找 不 出 更 好 的 位 置 ， 如 图 9-23 所 示 。 


图 9-23 ”天 均值 算法 对 数据 进行 聚 类 


下 面 我 们 符 试 用 手工 生成 的 数据 集 来 展示 一 下 天 均值 聚 类 算法 的 工作 原理 ， 输 入 代 


码 如 下 : 
# 导 入 数据 集 生成 工具 


from sklearn.datasets import make blobs 

# 生 成 分 类 数 为 1 的 数据 集 

blobs = таке blobs (random state=1,centers=1) 

X blobs = blobs[0] 

# 绘 制 散 点 图 

plt.scatter (X Б1оБз |:,01|,Х Ъ10531:,11,с-"г" ,еддесоТог-"К") 
# 显 示 图 像 

plt.show () 


这 段 代 码 ， 主 要 是 生成 一 “ 坨 ”没有 类 别 的 数据 点 ， 并 且 用 散 点 图 把 它们 画 出 来 。 
运行 代码 ， 会 得 到 如 图 9-24 所 示 的 结果 。 
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9-24 ”使 用 make_blobs 生成 的 无 分 类 数据 


【 结果 分 析 】 从 图 中 可 以 看 到 ， 由 于 我 们 指定 了 make_blobs 的 centers 参数 为 1, 
此 所 有 的 数据 都 属于 1 类 ， 并 没有 差别 。 
下 面 我 们 使 用 均值 来 帮助 这 些 数 据 进 行 聚 类 ， 输 入 代码 如 下 : 


# 导 入 KMeans 工 具 

from sklearn.cluster import KMeans 
# 要 求 KMeans 将 数据 聚 为 3 类 

Кшеапз = КМеапз (п clusters=3) 

# 拟 合 数据 


kmeans .ft (Х blobs) 


# 下面 是 用 来 画图 的 代码 
x тіп, х тах = X blobs[:, 0] .min()-0.5 , X blobs[:, 0] .мах() +0.5 
у min, у max = X blobs[:, 1].міп() -0.5 , X blobs[:, 1] .max()+0.5 
хх, уу = пр.тезһагіа (пр.агапде (х тіп, х тах, .02), 
пр.агапде (у тіп, у max, .02)) 
2 = kmeans.predict (пр.с [хх.гауе1 (), уу. гауе1 () |) 
Z = 2. гезһаре (хх. зһаре) 
plt.figure (1) 
ВЪЕСЕТЕЦ 
plt.imshow(Z, іпёегро1аёіоп='пеагезі!', 
extent=(xx.min(), хх.тах (), yy.-.min(), уу-пах()), 
сшар-р1 4. сш.зишшег, 
aspect='auto', origin='lower') 


plt.plot (X blobs[:, 0], X blobs[:, 1], "г.", markersize=5) 


# 用 蓝 色 叉 号 代表 聚 类 的 中 心 
centroids = kmeans.cluster centers 


Blt scatterleceentrordsl:e 0, centroids|:; 11; 
пагКег-"х", 3з-150, linewidths=3, 
соТог+ "фр", гогдег<10) 


plt.xlim(x min, х птах) 
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plt.ylim(y min, у тах) 
БЕЖЕ a 
pPlt-yticks{()) 

# 显 示 图 像 

рії. зһом () 


运行 代码 ， 会 得 到 如 图 9-25 所 示 的 结果 。 


el 


9-25 ”使 用 天 均值 算法 进行 的 聚 类 


【 结果 分 析 】 在 上 一 段 代 码 中 ， 我 们 指定 了 天 均值 的 n_clusters 参数 是 3， 所 以 天 
均值 将 数据 点 聚 为 3 类， 图 中 的 3 个 蓝 色 的 х 号 ， 就 代表 了 天 均值 对 数据 进行 聚 类 的 3 
个 中 心 。 

那么 天 均值 怎样 来 表示 这 些 聚 类 呢 ? 我 们 用 下 面 这 行 代码 来 看 一 下 。 


# 打 印 KMeans 进 行 聚 类 的 标签 
print ("K 均 值 的 聚 类 标签 :\n{}".format (kmeans . Labels )) 


运行 代码 ， 会 得 到 如 图 9-26 所 示 的 结果 。 


图 9-26 ”天 均值 算法 的 标签 属性 


【 结果 分 析 】 从 结果 中 可 以 看 到 , 天 均值 对 数据 进行 的 聚 类 和 分 类 有 些 类 似 ， 是 用 0、 
1、2 三 个 数字 来 代表 数据 的 类 ， 并 且 储 存在 .labels_ 属 性 中 。 

从 好 的 一 面 来 看 ， 天 均值 算法 十 分 简单 而 且 容易 理解 ， 但 它 也 有 很 明显 的 局 限 性 。 
例如 ， 它 认为 每 个 数据 点 到 聚 类 中 心 的 方向 都 是 同等 重要 的 。 这 样 一 来 ， 对 于 “形状 ” 
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复杂 的 数据 集 来 说 ， 天 均值 算法 就 不 能 很 好 地 工作 。 在 讲 完 后 面 的 算法 后 ， 我 们 会 详细 
对 比 它 们 的 差异 。 


9.42 ЖА 


要 理解 凝聚 聚 类 算法 其 实 很 简单 ， 也 很 有 意思 。 在 夏天 观察 雨 后 的 荷 叶 ， 会 发 现 一 
个 有 意思 的 现象 : 在 重力 的 作用 下 ， 和 荷 叶 上 的 小 水 珠 会 同和 茶叶 中 心 聚集 ， 并 且 凝 聚 成 一 
个 大 水 珠 ， 这 也 可 以 用 来 形象 地 描述 凝聚 聚 类 算法 。 实 际 上 ， 凝 聚 聚 类 算法 是 一 揽 子 算 
法 的 集合 ， 而 这 一 揽 子 算法 的 共同 之 处 是 ， 它 们 首先 将 每 个 数据 点 看 成 是 一 个 聚 类 ， 也 
就 是 人 茶叶 上 的 小 水 珠 ， 然 后 把 相似 的 聚 类 进行 合并 ， 形 成 了 一 个 较 大 的 水 珠 。 然 后 重复 
这 个 过 程 ， 直 到 达到 了 停止 的 标准 。 那 么 停止 的 标准 是 什么 呢 ? 在 scikit-learn 中 ， 停 止 
的 标准 是 剩 下 的 “大 水 珠 ” 的 数量 。 

下 面 我 们 还 是 用 一 个 图 像 来 对 凝聚 聚 类 算法 的 工作 机 制 进行 说 明 ， 输 入 代码 如 下 : 


# 导 入 dendrogram 和 ward 工 具 

from scipy.cluster.hierarchy import dendrogram, ward 
# 使 用 连 线 的 方式 进行 可 视 化 

linkage = ward(X blobs) 
dendrogram (linkage) 

ах = р!.аса() 

# 设 定 横 纵 轴 标 签 

plt.xlabel ("Sample index") 
plt.ylabel ("Cluster distance") 
# 显 示 图 像 

Plt зПои () 


为 了 和 天 均值 算法 进行 比较 ， 这 里 我 们 仍然 使 用 了 在 天 均值 算法 中 生成 的 数据 集 。 
运行 代码 ， 会 得 到 如 图 9-27 所 示 的 结果 。 


图 9-27 ”凝聚 聚 类 算法 工作 原理 展示 
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【 结果 分 析 】 从 图 9-27 中 可 以 看 到 ， 凝 聚 聚 类 算法 是 目下 而 上 ， 不 断 地 合并 相似 的 
聚 类 中 心 ， 以 便 让 类 别 越 来 越 少 ， 同 时 每 个 聚 类 中 心 的 距离 也 就 原来 越 远 。 这 种 逐 级 生 
成 的 聚 类 方法 称 为 Hierarchy clustering. 

当然 ， 和 天 均值 聚 类 算法 比较 类 似 ， 雍 聚 聚 类 算法 也 无 法 对 “形状 ”复杂 的 数据 进 
行 正确 的 聚 类 。 因 此 接 下 来 我 们 要 介绍 一 个 新 的 算法 : DBSCAN。 


9.43 DBSCAN 复 法 


如 果 只 是 看 名 字 的 话 ， 或 许 会 觉得 这 个 算法 和 “数据 库 扫描 ”有 什么 关系 ， 因 为 直 
观看 起 来 ， 它 像 是 DataBase Scan 的 缩写 。 然 而 实际 上 并 不 是 这 样 ， 这 个 算法 的 全 名 称 为 
“基于 密度 的 有 噪声 应 用 空间 聚 类 ” (Density-based spatial clustering of applications with 
noise) 。 这 是 一 个 很 长 且 白 口 的 名 字 ， 但 是 也 反应 了 它 的 工作 原理 。DBSCAN 是 通过 对 
特征 空间 内 的 密度 进行 检测 ， 密 度 大 的 地 方 它 会 认为 是 一 个 类 ， 而 密度 相对 小 的 地 方 它 
会 认为 是 一 个 分 界线 。 也 正 是 由 于 这 样 的 工作 机 制 ， 使 得 DBSCAN 算法 不 需要 像 K 均 
值 或 者 是 凝聚 聚 类 算法 那样 在 一 开始 就 指定 聚 类 的 数量 n_clusters。 
下 面 我 们 再 用 之 前 make_blobs 生成 的 数据 集 来 展示 一 下 DBSCAN 的 工作 机 制 ， 输 
入 代码 如 下 : 


# 导 入 DBSCAN 

from sklearn.cluster import DBSCAN 

db = DBSCAN () 

# 使 用 DBSCAN 拟 合 数 据 

clusters = db.fit predict (х blobs) 

# 绘 制 散 点 图 

plt.scatter(X blobs[:, 0], X blobs[:, 1], c=clusters, cmap=plt.cm.cool, 
3s=60,edgecolor="k") 

# 设 置 横 纵 轴 标 签 

plt.xlabel ("Feature 0") 

plt.ylabel ("Feature 1") 

# 显 示 图 像 

рі. зһом () 


运行 代码 ， 会 得 到 如 图 9-28 所 示 的 结果 。 
【 结果 分 析 】 从 图 9-28 中 ， 我 们 看 到 经 过 DBSCAN 的 聚 类 ， 数 据点 被 标 成 了 不 同 
的 深浅 程度 。 那 么 是 不 是 表示 DBSCAN 把 数据 类 聚 成 了 两 类 呢 ? 
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Feature 1 


Е Е. Feature 0 ! 
9-28 ”DBSCAN 算法 对 make_blobs 数据 集 的 聚 类 结果 
我 们 试看 输入 代码 如 下 : 
HIERA TH 


Princi: \n\n\n 聚 类 标签 为 . \n{}\n\n\n'.format (clusters) ) 


运行 代码 ， 会 得 到 如 图 9-29 所 示 的 结果 。 


9-29 ”DBSCAN 的 聚 类 标签 


【 结果 分 析 】 奇 怪 的 是 ， 在 聚 类 标签 中 ， 居 然 出 现 了 -1， 这 是 怎么 回 事 呢 ? 原来 在 
DBSCAN 中 ，-1 代表 该 数据 点 是 噪声 。 在 图 9-27 中 ,我们 看 到 中 间 深 色 的 数据 点 密度 
相对 较 大 ， 因 此 DBSCAN 把 它们 归 到 一 “ 坨 ”， 而 外 围 的 浅 色 的 数据 点 ，DBSCAN 认 
为 根本 不 属于 任何 一 类 ， 所 以 放 进 了 “噪声 ”这 个 类 别 。 

说 到 这 里 ， 就 不 能 不 提 DBSCAN 中 两 个 非常 重要 的 参数 : 一 是 eps; 一 个 是 min_ 
samples。eps 指定 的 是 考虑 划 入 同一 “ 坨 ”的 样本 距离 有 多 远 ，eps 值 设 置 得 越 大 ， 则 
聚 类 所 禾 盖 的 数据 点 越 多 ， 反 之 则 越 少 。 默 认 情 况 下 eps 的 值 为 0.5。 接 下 来 我 们 试看 把 
ер 值 调 大 一 些 ， 看 会 发 生 什么 。 输 入 代码 如 下 : 


# 设 置 DBSCAN 的 eps 参 数 为 2 
ар 1 = ОВЗСАМ (ep3 = 2) 
# 重 新 拟 合 数据 


сТизгегз 1 = db 1.fit Predict(X blobs) 
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深入 浅 出 Python 机 器 学 习 


plt.scatter (X blobs[:, 0], X blobs[:, 1], c=clusters 1, cmap=plt.cm.cool, 
з-60,еддесоТог-"К") 

# 设 定 横 纵 轴 标签 

plt.xlabel ("Feature 0") 

plt.ylabel ("Feature 1") 

# 显 示 图 像 

plt.show () 


在 这 段 代 码 中 ， 我 们 手动 指定 了 eps 值 为 2， 运 行 代码 会 得 到 如 图 9-30 的 结果 。 


Feature 1 


0 1 


Feature 0 
9-30 ерѕ 值 为 2 时 DBSCAN 进行 的 聚 类 


【 结果 分 析 】 现 在 我 们 看 到 ， 所 有 的 数据 点 都 变 成 了 浅 色 ， 这 并 不 是 说 所 有 数据 点 
都 变 成 了 噪声 ， 而 是 说 所 有 的 数据 点 都 被 归 入 同一 “ 坨 ”中 。 这 是 因为 我 们 增加 了 eps 
的 取 值 后 ， 让 DBSCAN 把 距离 更 远 的 数据 点 也 拉 到 这 个 聚 类 中 了 。 

而 min_samples 参数 指定 的 是 在 某 个 数据 点 周围 ， 被 看 成 是 聚 类 核心 点 的 个 数 ， 
min_samples 值 越 大 ， 则 核心 数据 点 越 少 ， 品 声 也 就 越 多 ; 反之 min sample 值 越 小 ， 品 
声 也 就 越 少 。 默 认 的 min_samples 值 是 2。 下 面 我 们 用 图 形 进行 展示 ， 输 入 代码 如 下 : 

# 设 置 DBSCAN 的 最 小 样本 数 为 20 

db 2 = DBSCAN (min samples = 20) 

clusters 2 = db 2.fit predict (X blobs) 

# 绘 制 散 点 图 

plt.scatter (X blobs[:, 0], X blobs[:, 1], c=clusters 2, cmap=pit.cm.cool, 

s=60, edgecolor='k') 

# 设 置 横 纵 轴 标 签 

plt.xlabel ("Feature 0") 

plt.ylabel ("Feature 1") 

# 显 示 图 像 

pitasahow(y 


现在 我 们 指定 了 min_samples 的 值 为 20， 运 行 代 码 ， 将 得 到 如 图 9-31 所 示 的 结果 。 
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Feature | 


=] 
Feature 0 
9-31 min_samples 为 20 的 DBSCAN RÆ 


【 结果 分 析 】 如 果 对 比 图 9-31 与 图 9-28 的 话 ， 你 会 发 现 ， 浅 色 的 数据 点 变 多 了 ， 
也 就 是 噪声 变 多 了 。 而 深 色 的 数据 点 ， 也 就 是 聚 类 中 被 划 为 类 别 1 的 数据 点 变 少 了 。 
综 上 ， 虽 然 DBSCAN 并 不 需要 我 们 在 开始 训练 算法 的 时 候 就 指定 clusters 的 数量 ， 
但 是 通过 对 eps 和 min_samples 参数 赋值 ， 相 当 于 间接 地 指定 了 clusters 的 数量 。 尤 其 是 
eps 参数 尤为 重要 ， 因 为 它 规定 了 某 一 “ 坨 ”的 范围 大 小 。 而 且 在 实际 应 用 中 ， 如 果 将 数 
据 集 先 用 MinMaxScaler 或 者 StandardScaler 进行 预 处 理 ， 那 么 DBSCAN 算法 的 表现 会 更 
好 《因为 这 两 种 预 处 理 方 法 把 数据 的 范围 控制 得 比较 集中 ) 。 


9.5 ОМА 


在 本 章 中 ， 我 们 一 起 初步 了 解 了 数据 预 处 理 、 数 据 降 维 、 特 征 提取 和 聚 类 算法 这 几 
个 方面 的 知识 。 对 于 机 器 学 习 来 说 ， 能 够 合理 有 效 地 对 数据 进行 表达 是 至 关 重 要 的 。 
此 数据 预 处 理 、 降 维 、 特 征 提取 在 我 们 对 数据 进行 准备 工作 的 过 程 中 起 着 非常 关键 的 作用 。 
而 对 于 没有 分 类 标签 的 数据 来 说 ， 无 监督 学 习 的 聚 类 算法 可 以 帮助 我 们 更 好 地 理解 数据 
集 ， 并 且 为 进一步 训练 模型 打 好 基础 。 截 至 目 前， 读者 朋友 们 基本 已 经 对 机 器 学 习 中 常 
用 的 一 些 算法 有 了 一 定 的 了 解 ， 硕 望 大 家 在 阅读 过 后 ， 可 以 尝试 动手 在 scikit-learn 内 置 
的 一 些 数据 集中 进行 实验 一 一 学 习 一 门 技巧 最 好 的 办 法 就 是 使 用 它 。 

下 一 章 中 ， 我 们 会 和 读者 朋友 们 一 起 就 数据 表达 和 特征 工程 这 两 个 方面 的 知识 进行 
探讨 和 研究 ， 希 望 能 够 对 大 家 有 进一步 的 帮助 。 
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第 10 数据 表达 与 特征 工程 一 锦 Epit 


读者 朋友 们 还 记得 在 第 6 章 决策 树 与 随机 森林 中 ， 我 们 让 小 C 用 机 器 学 习 的 方法 帮 
助 小 Q 决定 要 不 要 和 相亲 对 象 进一步 交往 的 例子 吗 ? 细心 的 读者 朋友 可 能 会 发 现 一 个 问 
题 ， 那 就 是 在 这 个 例子 中 ， 我 们 使 用 的 adult 数据 集 和 其 他 的 数据 集 有 点 不 同 ， 其 他 的 数 
据 集中 样本 的 特征 一 般 是 一 个 数值 ， 而 adult 数据 集中 ， 样 本 的 特征 有 很 多 是 用 字符 串 来 
表达 的 ， 如 工作 单位 性 质 ， 有 些 是 State-gov， 有 些 是 private， 还 有 一 些 是 Federal-gov。 
我 们 管 这 些 字符 串 式 的 特征 称 为 “类 型 特征 ” (categorical features) ， 而 把 之 前 说 的 数 
值 类 型 的 特征 称 为 “连续 特征 ” (continuous features) 。 在 本 章 中 ， 我 们 将 讨论 如 何 将 
不 同 的 特征 进行 转换 、 如 何 合理 表达 数据 ， 以 及 如 何 进行 特征 选择 等 。 

本 章 主要 涉及 的 知识 点 有 : 

> 使 用 哑 变 量 对 类 型 特征 进行 转化 
对 数据 进行 装 箱 处 理 
几 种 常用 的 数据 “ 升 维 ” 方 法 
常用 的 自动 特征 选择 方法 


vy vv 


10.1 ”数据 表达 


10.1.1 使 用 哑 变 量 转化 类 型 特征 


首先 , 我 们 要 了 解 一 下 什么 是 哑 变 量 (Dummy Variables). WME, 也 被 称 为 虚拟 变量 ， 
是 一 种 在 统计 学 和 经 济 学 领域 非常 常用 的 , 用 来 把 某 些 类 型 变量 转化 为 二 值 变 量 的 方法 ， 
在 回归 分 析 中 的 使 用 尤其 广泛 。 在 第 6 章 中 ， 我 们 就 是 使 用 了 pandas 的 get_dummies 将 
adult 数据 集中 的 类 型 特征 转换 成 了 用 0 和 1 表达 的 数值 特征 。 

下 面 我 们 用 一 个 例子 来 展示 下 get_dummies 的 使 用 ， 在 Jupyter Notebook 中 输入 代码 
如 下 : 


# 导 入 pandas 
import pandas as pd 
# 手 工 输 入 一 个 数据 表 
fruits = pd.DataFrame ({' 数 值 特征 ' :[5, 6,7,8,9], 
' 类 型 特征 ' : САЩ", "ВЖ, ЯТ" ER, аа" ] } ) 
# 显 示 fruits 数 据 表 
аізр1ау (Егит Ез) 


运行 代码 ， 会 得 到 如 图 10-1 所 示 的 结果 。 


Rar 
è i M 
1 | 
а 7 ги: 
з в å pë 
4 а ту 


10-1 手动 生成 的 水 果 数 据 集 


【 结果 分 析 】 图 10-1 就 是 我 们 使 用 pandas 的 DataFrame 生成 的 一 个 完整 数据 集 ， 其 
中 包括 整 型 数值 特征 [5, 6, 7, 8]， 还 包括 字符 串 组 成 的 类 型 特征 “西瓜 ”“ 香 秦 ”“ 权 子 ” 
CER” “А”. 
РЕВИИ Н get_dummies 来 将 类 型 特征 转化 为 只 有 0 和 1 的 二 值 数 值 特 征 ， 输 入 
代码 如 下 : 
# 转 化 数据 表 中 的 字符 串 为 数值 


fruits dum = pd.get dummies (fruits) 
# 显 示 转 化 后 的 数据 表 


display(fruits dum) 


运行 代码 ， 会 得 到 如 图 10-2 所 示 的 结果 。 
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10-2 经 过 ве аиттіеѕ 转化 的 水 果 数 据 集 


【 结果 分 析 】 从 图 10-2 中 我 们 看 到 ， 通 过 get_dummies 的 转换 ， 之 前 的 类 型 变量 全 
部 变 成 了 只 有 0 和 1 的 数值 变量 , 或 者 说 , 是 一 个 黎 玻 和 矩阵。 相信 有 些 读者 朋友 可 能 会 发 现 ， 
数值 特征 并 没有 发 生变 化 ， 这 也 是 正式 get_dummies 的 机 智 过 人 之 处 ， 它 在 默认 情况 下 
是 不 会 对 数值 特征 进行 转化 的 。 
那 读者 朋友 可 能 会 问 了 ， 假 如 我 就 是 希望 把 数值 特征 也 进行 get_dummies 转换 怎 
么 办 呢 ? 没 问题 的 ， 我 们 可 以 先 将 数值 特征 转换 为 字符 嘻 ， 然 后 通过 get_dummies 的 
columns 参数 来 转换 。 下 面 我 们 来 试 一 下 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 


# 令 程序 将 数值 也 看 作 字符 串 

аа 数值 特征 ' | = Ёриіізѕ[ :数值 特征 ， | .astype (str) 
# 在 用 get_dummies 转 化 字符 串 

pd.get dummies (fruits, columns=[" 数值 特征 ' 1) 


在 代码 中 ， 我 们 首先 用 .astype (str) 指定 了 “数值 特征 ”这 一 列 是 字符 串 类 型 的 数 
据 ， 然 后 在 get_dummies 中 指定 columns 参数 为 “数值 特征 ”这 一 列 ， 这 样 get_dummies 
就 会 只 转化 数值 特征 了 ， 运 行 代 码 ， 会 得 到 如 图 10-3 所 示 的 结果 。 
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10-3 ”指定 get_dummies 转换 数值 特征 的 结果 
实际 上 ， 如 果 我 们 不 用 fruits! “数值 特 征 ”] = fruits[“ 数 值 特征 ”].astype (str ) 


这 行 代 码 把 数值 转化 为 字符 串 类 型 ， 依 然 会 得 到 同样 的 结果 。 但 是 在 大 规模 数据 集中 ， 
还 是 建议 大 家 进行 转化 字符 串 的 操作 ， 避 免 产 生 不 可 预料 的 铺 误 。 
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10.12 ”对 数据 进行 闻 箱 处 理 


在 机 器 学 习 中 , 不 同 的 算法 建立 的 模型 会 有 很 大 的 差别 。 即 便 是 在 同一 个 数据 集中 ， 
这 种 差别 也 会 存在 。 这 是 由 于 算法 的 工作 原理 不 同 所 导致 的 ， 如 KNN 和 MLP。 下 面 我 
们 手工 生成 一 点 数据 ， 让 读者 朋友 可 以 直观 感受 下 相同 数据 下 不 同 算法 的 差异 。 输 入 代 
П Е: 


# 导 入 numpy 

import numpy аз пр 

# 导 入 男 图 工具 

import matplotlib.pyplot аз plt 
# 生 成 随机 数列 

rnd = np.random.RandomState (38) 
х = rnd.uniform(-5,5,size=50) 

# 向 数据 中 添加 噪声 

у по noise = (пр.соз (6*х) +х) 

X = х.гезпаре (1,1) 

у = (у по noise + гпа.погта1 (312е-1еп (х))) /2 
# 绘 制图 形 

pit pio y; тоест) 

# 显 示 图 形 

BlEtE= зроми () 


这 只 是 一 个 用 来 生成 随机 数据 的 代码 ， 大 家 可 以 不 用 太 在 意 它 有 什么 具体 的 意义 。 
运行 代码 ， 会 得 到 如 图 10-4 所 示 的 结果 。 


10-4 手动 生成 的 数据 集 


下 面 我 们 分 别 用 МІР 算法 和 KNN 算法 对 这 个 数据 集 进行 回归 分 析 ， 在 Jupyter 
Notebook 中 输入 代码 如 下 : 
# 导 入 神经 网 络 


from sklearn.neural network import MLPRegressor 


# 导 入 KNN 
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from sklearn.neighbors import KNeighborsRegressor 
# 生 成 一 个 等 差 数 列 

line = пр. 11пзрасе (-5, 5,1000, епароіпё=ЕҒа1зе) . гезһаре (-1, 1) 
# 分 别 用 两 种 算法 拟 合 数据 

mlpr = MLPRegressor() .ft(X,Y) 

knr = KNeighborsRegressor() .fit (X, у) 

# 绘 制图 形 

plt.plot (line, mlpr.predict (line),label='MLP') 
plt.plot (line, knr.predict (line),1label="KNN'") 
Blt- EoE(X yV о = 

plt.legend (loc='best') 

# 显 示 图 形 

plt.show () 


这 里 我 们 保持 МІР A KNN 的 参数 都 为 默认 值 ， 即 MLP 有 1 个 隐藏 层 ， 节 点 数 为 
100， 而 KNN 的 n_neighbors 数量 为 5。 运 行 代码 ， 会 得 到 如 图 10-5 所 示 的 结果 。 


-4 -2 0 2 4 
10-5 MLP 和 KNN 进行 回归 分 析 的 差异 


【 结果 分 析 】 从 图 10-5 中 可 以 看 出 ，MLP 产生 的 回归 线 非常 接近 线性 模型 的 结果 ， 
而 КММ 则 相对 更 复杂 一 些 ， 它 试图 履 善 更 多 的 数据 点 。 即 便 是 用 肉眼 观察 ， 也 能 发 现 
这 两 者 所 进行 的 回归 预测 有 明显 的 差别 。 

那么 在 现实 当中 ， 我 们 应 该 采用 哪个 算法 的 预测 结果 呢 ? 先 不 要 厦 急 ， 接 下 来 我 
们 对 数据 进行 一 下 “ 装 箱 处 理 ” (binning) ， 这 种 处 理 方法 也 称 为 “离散 化 处 理 ” 
(discretization) 。 现 在 在 Jupyter Notebook 中 输入 代码 如 下 : 


# 设 置 箱 体 数 为 11 

bins = пр.1іпзрасе (-5,5,11) 

将 数据 进行 装 箱 操作 

target ріп np gL126(X7 ріпз=ріпз) 
# 打 印 装 箱 数 据 范围 

print (' 装 箱 数据 范围 . \n{}' .format (bins) ) 
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# 打 印 前 十 个 数据 的 特征 值 

print (' \n 前 十 个 数据 点 的 特征 值 : \n{}' .format (Xx[:10])) 

# 找 到 它们 所 在 的 箱子 

print ('\n 前 十 个 数据 点 所 在 的 箱子 : \n{}' .format (target bin[:10])) 


由 于 我 们 在 生成 这 个 实验 数据 集 的 时 候 ， 是 在 -5 到 5 之 间 随 机 生成 了 50 个 数据 点 ， 
因此 我 们 在 生成 “箱子 ” 如果 觉 得 这 么 叫 有 点 土 的 话 ， 也 可 以 叫 它 “容器 ”) 的 时 候 ， 
也 指定 范围 是 从 -5 到 5 之 间 ， 生 成 11 个 元 素 的 等 差 数 列 ， 这 样 每 两 个 数值 之 间 就 形成 
了 一 个 箱子 ， 一共 10 个 。 运 行 代 码 ， 会 得 到 如 图 10-6 所 示 的 结果 。 
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10-6 ”数据 装 箱 情 况 


【 结果 分 析 】 从 结果 中 可 以 看 到 ,第 一 个 箱子 是 -5 到 -4 之 间 , 第 二 个 箱子 是 -4 到 -3 
之 间 , 以 此 类 推 。 第 1 个 数据 点 -1.1522688 所 在 的 箱子 是 第 4 个 , 第 2 个 数据 点 3.59707847 
所 在 的 箱子 是 第 9 个 ， 而 第 3 个 数据 点 4.44199636 所 在 的 箱子 是 第 10 个 ， 以 此 类 推 。 

接 下 来 我 们 要 做 的 事情 ， 就 是 用 新 的 方法 来 表达 已 经 装 箱 的 数据 ， 所 要 用 到 的 方法 
就 是 scikit-learn 的 独 热 编 码 OneHotEncoder。OneHotEncoder 和 pandas 的 get_dummies 功 
能 基本 上 是 一 样 的 ， 但 是 OneHotEncoder 目前 只 能 用 于 整 型 数值 的 类 型 变量 。 现 在 输入 


代码 如 下 : 
# 导 入 独 热 编码 


from sklearn.preprocessing import OneHotEncoder 
onehot = OneHotEncoder (sparse = False) 
onehot .fit (target bin) 
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# 使 用 独 热 编码 转化 数据 

X іп ріп = onehot.transform(target bin) 

# 打 印 结果 

реа" 装 箱 后 的 数据 形态 : {}" .format (X іп bin.shape)) 

print (' \n 装 箱 后 的 前 十 个 数据 点 : \n{}'.format (Х іп bin[:10])) 


运行 代码 ， 会 得 到 如 图 10-7 所 示 的 结果 。 
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10-7 使 用 独 热 编码 对 数据 进行 表达 


【 结果 分 析 】 现 在 可 以 看 到 ， 虽 然 数据 集中 样本 的 数量 仍然 是 50 个 ， 但 特征 数 变 成 
了 10 个 。 这 是 因为 我 们 生成 的 箱子 是 10 个 ， 而 新 的 数据 点 的 特征 是 用 其 所 在 的 箱子 号 
码 来 表示 的 。 例 如 ， 第 1 个 数据 点 在 第 4 个 箱子 中 ， 则 其 特征 列表 中 第 4 个 数字 是 1， 
其 他 数字 是 0， 以 此 类 推 。 
这 样 一 来 ， 相 当 于 我 们 把 原先 数据 集中 的 连续 特征 转化 成 了 类 别 特征 。 现 在 我 们 再 
用 MLP M KNN 算法 重新 进行 回归 分 析 ， 看 看 结果 发 生 了 什么 变化 。 输 入 代码 如 下 : 
# 使 用 独 热 编码 进行 数据 表达 


пем line = onehot.transform(np.digitize (1іпе, ріпз=ріпз)) 
# 使 用 新 的 数据 来 训练 模型 

пем mlpr = MLPRegressor() .fit(X in bin, у) 

new knr = KNeighborsRegressor() .fit(X in bin,y) 

# 绘 制图 形 

pit-plot (1іпе, пем тірг.ргеаісі (пем 11пе) „Таре!- Мем МІР') 
plt.plot (line, пем Кпг.ргедісі (пем 1іпе),1аре1='Мем KNN ) 


和 
# 设 置 图 注 

plt.legend (loc='best') 
# 显 示 图 形 

рі. Snow () 
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正确 的 预测 结果 。 运 行 代 码 ， 将 会 得 到 如 图 10-8 所 示 的 结果 。 
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10-8 特征 装 箱 之 后 的 MLP 回归 和 KNN 回归 


【 结果 分 析 】 有 意思 的 事情 发 生 了 ，MLP 模型 和 KNN 模型 变 得 更 相似 了 ， 尤 其 在 
x>0 的 部 分 ， 两 个 模型 几乎 完全 重合 。 如 果 和 图 10-5 对 比 的 话 ， 你 会 发 现 MLP 的 回归 
模型 变 得 更 复杂 , 而 КММ 的 模型 变 得 更 简单 。 所 以 这 是 对 样本 特征 进行 装 箱 的 一 个 好 处 : 
它 可 以 纠正 模型 过 拟 合 或 者 欠 拟 合 的 问题 。 尤 其 是 当 针 对 大 规模 高 维度 的 数据 集 使 用 线 
性 模型 的 时 候 ， 装 箱 处 理 可 以 大 幅 提 高 线性 模型 的 预测 准确 率 。 


ESS 这 种 对 于 样本 数据 进行 装 箱 的 操作 对 于 基于 决策 树 的 算法 ( 如 随机 和 森林、 梯度 上 升 
决策 树 ， 当 然 也 包括 决策 树 本 身 ) 没有 太 多 的 作用 ， 因 为 这 类 算法 本 身 就 是 不 停 在 拆 分 
样本 的 特征 数据 ， 所 以 不 需要 再 使 用 效 箱 操作 。 


1 0.2 数据 “Ж” 


10.2.1 ŽERNE Н. КЕ 


在 实际 应 用 中 ， 和 弟弟 会 遇 到 数据 集 的 特征 不 足 的 情况 。 要 解决 这 个 问题 ， 就 需要 
对 数据 集 的 特征 进行 扩充 。 这 里 我 们 介绍 两 种 在 统计 建 模 中 常用 的 方法 一 一 交互 式 特征 
(Interaction Features) 和 多 项 式 特征 《Polynomial Features) 。 现 在 这 两 种 方法 在 机 器 学 
习 领 域 也 非常 普 i 

首先 我 们 先 来 介绍 一 下 “交互 式 特征 ”， 顾 名 思 义 ， 交 互 式 特征 是 在 原始 数据 特征 
中 添加 交互 项 ， 使 特征 数量 增加 。 在 Python 中 ， 我 们 可 以 通过 Numpy 的 hstack 函数 来 
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对 数据 集 添加 交互 项 ， 下 面 我 们 先 通过 一 段 代 码 了 解 一 下 hstack 函数 的 原理 。 在 Jupyter 
Notebook 中 输入 代码 如 下 : 


# 手 工 生 成 两 个 数组 

аггау 1 = [1,2,3,4,5] 

аггау 2 = [6,7,8, 9,0] 

Н Визтаск 19191 

аггау 3 = пр.һзіаск ( (аггау 1, array 2)) 

# 打 印 结果 

print(' 将 数组 2 添加 到 数据 1 中 后 得 到 :{}' .format (array 3)) 


这 段 代 码 中 ， 我 们 先 建立 了 一 个 数组 апау 1， 并 且 赋 值 为 一 个 1 一 5 的 列表 ， 然 后 
又 建立 了 另 一 个 数组 агау 2， 赋值 为 一 个 6 一 0 的 列表 之 后 我 们 使 用 np.hstack 函数 将 两 
个 数组 堆 又 到 一 起 ， 运 行 代码 会 得 到 如 图 10-9 所 示 的 结果 。 


10-9 将 两 个 数组 进行 堆 释 


【 结果 分 析 】 从 结果 中 看 到 ， 原 来 两 个 5 维 数 组 被 堆放 到 一 起 ， 形 成 了 一 个 新 的 十 
维 数组 。 也 就 是 说 我 们 使 array_1 和 array_2 产生 了 交互 。 假 如 array_ 1 和 array_2 分 别 代 
表 两 个 数据 点 的 特征 ， 那 么 我 们 生成 的 array_3 就 是 它们 的 交互 特征 。 
接 下 来 我 们 继续 用 之 前 生成 的 数据 集 来 进行 实验 ， 看 对 特征 进行 交互 式 操作 会 对 模 
型 产生 什么 样 的 影响 。 在 Jupyter Notebook 中 输入 代码 如 下 : 
# 将 原始 数据 和 装 箱 后 的 数据 进行 堆 夫 


X stack = np.hstack([X, X іп 5111) 
print (X stack.shape) 


在 这 段 代 码 中 ， 我 们 把 数据 集中 的 原始 特征 和 装 箱 后 的 特征 堆 又 在 一 起 ， 形 成 了 一 
个 新 的 特征 X_stack， 运 行 代码 ， 会 得 到 如 图 10-10 所 示 的 结果 。 


10-10 Ж БА EAS 


从 结果 可 以 看 到 ，X_stack 的 数量 仍然 是 50 个 ， 而 特征 数量 变 成 了 11。 下 面 我 们 要 
用 新 的 特征 X_stack 来 训练 模型 。 输 入 代码 如 下 : 
# 将 数据 进行 堆 又 
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line stack = пр.һзіёаск ([1іпе, пем 1іпе]) 
# 重 新 训练 模型 
mlpr interact = MLPRegressor() -ft (X stack, у) 
# 绘 制图 形 
Pit.plotl(lline, mipr іпёегасі.ргеаісі (1іпе stack), 
label='MLP for interaction') 
plt.ylim(-4,4) 
for у1іпе in Dins: 
ВЕс prLotiiv ine vinedel aal Е „с Кк") 
plt.legend (1ос='1омег right') 
Ремо оро yy oo сете) 
# 显 示 图 形 
plt.show () 


运行 代码 ， 会 得 到 如 图 10-11 所 示 的 结果 。 
4 
3 
2 
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10-11 每 个 箱子 中 斜率 相同 的 МІР 神经 网 络 模型 


【 结果 分 析 ] 对 比 图 10-11 和 图 10-8 中 的 MLP 模型 ,我 们 会 发 现在 每 个 数据 的 箱 体 中 ， 
图 10-6 中 的 模型 是 水 平 的 ， 而 图 10-11 中 的 模型 是 倾斜 的 ， 也 就 是 说 ， 在 添加 了 交互 式 
特征 之 后 ,在 每 个 数据 所 在 的 箱 体 中 ，MLP 模型 增加 了 和 斜率 。 相 比 图 10-8 中 的 模型 来 说 ， 
图 10-11 中 的 模型 复杂 度 是 有 所 提高 的 。 

但 是 ， 这 样 的 操作 方式 让 每 个 箱 体 中 模型 的 斜率 都 是 一 样 的 ， 这 还 不 是 我 们 想 要 的 
结果 ， 我 们 希望 达到 的 效果 是 ， 每 个 箱 体 中 都 有 各 目的 截 距 和 和 斜率 。 所 以 要 换 一 种 数据 
处 理 的 方式 ， 在 Jupyter Notebook 中 输入 下 面 的 代码 : 


# 使 用 新 的 堆 释 方式 处 理 数 据 
X пъ 111 = пр.рзтаск(|Х іп ріп, Х*Х іп bini) 
# 打 印 结果 


print (X multi.shape) 
Print{(X moilti[o]) 
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10-12 新 的 数据 形态 和 第 一 个 数据 点 的 特征 


【 结果 分 析 】 从 结果 中 看 到 ， 经 过 以 上 的 处 理 ， 新 的 数据 集 特征 X multi 变 成 了 
每 个 样本 有 20 个 特征 值 的 形态 。 试 着 打印 出 第 一 个 样本 ， 你 会 发 现 20 个 特征 中 大 部 
分 数值 是 0， 而 在 之 前 的 X_in_bin 中 数值 为 1 的 特征 ， 与 原始 数据 中 X 的 第 一 个 特征 
值 -1.1522688 保留 了 下 来 。 

下 面 用 处 理 过 的 数据 集训 练 神 经 网 络 ， 看 看 模型 的 结果 会 有 什么 不 同 。 在 Jupyter 


Notebook 中 输入 代码 如 下 : 
# 重 新 训练 模型 
mlpr multi = MLPRegressor() .fit (X multi, у) 
Tine multi = пр.һзіёаск ( [пем line, line * пем 11пе|) 
# 绘 制图 形 
pit-plot(line, тірг multi. predict (1іпе miniti); Tabel = "МІР Ведгеззог") 


Гог у1іпе іп Dins: 
р1іё.р1ої ( [у1іпе,у1іпе], [-5,5],':',с='адгау!') 
Pit Blo у, On CFE] 
plt.legend (1ос='1омег right') 
# 显 示 图 形 
рі. зһом () 


运行 代码 ， 将 会 得 到 如 图 10-13 所 示 的 结果 。 
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10-13 每 个 箱子 中 斜率 不 同 的 神经 网 络 模型 
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【 结果 分 析 】 通 过 这 样 的 处 理 之 后 ， 大 家 会 发 现 ， 每 个 箱子 中 模型 的 “ 截 距 ”和 “和 斜 
率 ” 都 不 一 样 了 。 而 这 种 数据 处 理 的 目的 ， 主 要 是 为 了 让 比较 容易 出 现 欠 拟 合 现象 的 模 
型 能 有 更 好 的 表现 。 例 如 ， 我 们 曾 在 第 4 章 介 绍 过 的 线性 模型 ， 线 性 模型 在 高 维 数据 集 
中 有 民 好 的 性 能 ， 但 是 在 低 维 数据 集中 却 表现 一 般 ， 因 此 我 们 需要 用 上 面 的 方法 来 进行 
特征 扩充 ， 以 便 给 数据 集 “ 升 维 ”， 从 而 提升 线性 模型 的 准确 率 。 

当然 对 数据 装 箱 只 是 其 中 一 种 方式 ， 下 面 我 们 再 来 看 另外 一 种 方法 : 多 项 式 特征 。 


10.2.2” 回 数据 集 添 加 多 项 式 特征 


首先 回顾 一 下 什么 是 多 项 式 ， 在 数学 中 ， 多 项 式 指 的 是 多 个 单项 式 相 加 所 组 成 的 代 
数 式 。 当 然 如 果 是 减 号 的 话 ， 可 以 看 作 加 上 这 个 单项 式 的 相反 数 。 下 面 是 一 个 典型 的 多 
项 式 : 

ax + БУ + сё + ах+ е 

Ш ах. Бх. ск, ах e 都 是 单项 式 。 在 机 器 学 习 当 中 ， 常 用 的 扩展 样本 特 
征 的 方式 就 是 将 特征 了 进行 乘 方 ， 如 久 、 了 外 、 店 等 。 你 可 能 觉得 这 有 点 儿 麻 烦 ， 不 过 
HAKA, Æ scikit-learn 中 内 置 了 一 个 功能 ， 称 为 PolynomialFeatures， 使 用 这 个 功能 划 


以 轻松 地 将 原始 数据 集 的 特征 进行 扩展 。 下 面 来 看 代码 : 
# 导 入 多 项 式 特征 工具 


from sklearn.preprocessing import PolynomialFeatures 

# 向 数据 集 添加 多 项 式 特征 

poly = Ро1 упошта! Ееагигез (дедгее-20, include Dias = False) 
X poly = poly.fit transform (X) 

# 打 印 结果 

print (X poly.shape) 


在 这 段 代码 中 ， 首 先 我 们 指定 了 PolynomialFeatures 的 degree 参数 为 20， 这 样 可 以 
生成 20 个 特征 。include_bias 设 定 为 False， 如 果 设 定 为 True 的 话 ，PolynomialFeatures 
只 会 为 数据 集 添加 数值 为 1 的 特征 。 运 行 代 码 ， 会 得 到 如 图 10-14 所 示 的 结果 。 


10-14 添加 多 项 式 特征 后 的 数据 形态 


【 结果 分 析 】 可 以 看 到 现在 我 们 处 理 过 的 数据 集中 ， 仍 然 是 50 个 样本 ， 但 每 个 样本 
的 特征 数 变 成 了 20 个 。 
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那么 PolynomialFeatures 对 数据 进行 了 怎样 的 调整 呢 ? 我 们 用 下 面 的 代码 打印 1 个 样 
本 的 特征 来 看 一 下 : 

# 打 印 结果 

print ('" 原 始 数据 集中 的 第 一 个 样本 特征 : \n{}'.format (Х101)) 

print (' \n 处 理 后 的 数据 集中 第 一 个 样本 特征 : \n{}'.format (х ро1у101)) 

运行 代码 ， 会 得 到 如 图 10-15 所 示 的 结果 。 
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10-15 ”经 过 多 项 式 特 征 添加 前 后 的 样本 特征 对 比 


【 结果 分 析 】 从 结果 中 可 以 看 到 ， 原 始 数据 集 的 样本 只 有 一 个 特征 ， 而 处 理 后 的 数 
据 集 有 20 个 特征 。 如 果 你 的 口算 能 力 很 强 的 话 ， 大 概 可 以 看 出 处 理 后 样本 的 第 一 个 特征 
就 是 原始 数据 样本 特征 ， 而 第 二 个 特征 是 原始 数据 特征 的 2 次 方 ， 第 三 个 特征 是 原始 数 
据 特 征 的 3 次 方 ， 以 此 类 推 。 

究竟 是 不 是 这 样 ? 我 们 可 以 用 下 面 这 一 行 代 码 来 验证 一 下 : 
# 打 印 多 项 式 特征 处 理 的 方式 


print (1 PolynomialFeatures 对 原始 数据 的 处 理 : \п{ }'. Ёогта+ ( 
poly.get feature патез ())) 


运行 代码 ， 会 得 到 如 图 10-16 所 示 的 结果 。 
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10-16 多 项 式 特征 处 理 的 方式 


【 结果 分 析 】 没 错 ，PolynomialFeatures 确实 是 把 原始 数据 样本 进行 了 从 1 到 20 的 
乘 方 处 理 。 


经 过 这 样 处 理 之 后 ， 机 器 学 习 的 模型 会 有 什么 变化 呢 ? 让 我 们 用 线性 回归 来 实验 一 
下 ， 输 入 代码 如 下 : 
# 导 入 线性 回归 


from sklearn.linear model import LinearRegression 
# 使 用 处 理 后 的 数据 训练 线性 回归 模型 


LNR poly = LinearRegression() .fit(X poly, у) 
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Tine paly = ро1у.ігапзҒЁогтю (11пе) 

# 绘 制图 形 

pit.plot (line, LNR ро1у.ргеаісі (1іпе poly), label= Linear Кедгеззог!) 
ртЕ. lm(npmin(X -0.5,пр.шах (X) +0.5) 

ръЕ-упзш(пр-шо (у)-0.5,пр-шах(у) 0.5) 

plt:-plot (x;y; oO се) 

plt.legend(loc="'lower right') 

# 显 示 图 形 

plt.show () 


运行 代码 ， 会 得 到 如 图 10-17 所 示 的 结果 。 


—— Linear Regressor 
[> 


-4 -2 0 2 4 
10-17 对 经 过 PolynomialFeatures 处 理 的 数据 进行 线性 回归 


【 结果 分 析 】 我 知道 这 对 读者 朋友 们 对 于 线性 模型 的 认 知 有 一 点 冲击 一 一 本 该 是 一 
条 耿直 的 直线 ， 现 在 变 得 分 外 妖娆 。 当 然 ， 从 图 10-17 中 可 以 得 到 这 样 的 结论 : 对 于 低 
维 数 据 集 , 线性 模型 常常 会 出 现 欠 拟 合 的 问题 。 而 我 们 将 数据 集 进行 多 项 式 特 征 扩 展 后 ， 
可 以 在 一 定 程度 上 解决 线性 模型 欠 拟 合 的 问题 。 


在 上 面 的 内 容 中 ， 我 们 使 用 了 一 些 对 数据 集 特征 进行 扩展 的 方法 ， 从 而 提升 了 线性 
模型 或 者 是 神经 网 络 模型 的 回归 分 析 性 能 ， 这 种 方法 尤其 在 数据 特征 与 目标 呈现 非 线性 
关系 时 效果 格外 明显 。 当 然 ， 除 了 我 们 上 面 用 到 的 PolynomialFeatures 这 种 将 特征 值 转 
化 为 多 项 式 的 方法 之 外 ， 我 们 还 可 以 用 类 似 正 纺 函 数 sin()、 对 数 函 数 log()， 或 是 指数 函 
数 exp() 等 来 进行 相似 的 操作 。 
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10.3 目 动 特征 选择 


在 经 过 前 面 两 个 小 节 的 学 习 后 , 我 们 已 经 掌握 了 如 何 对 低 维 数 据 集 扩充 特征 的 方法 。 
但 是 在 纷繁 复杂 的 特征 当中 ， 有 一 些 对 于 模型 预测 结果 的 影响 比较 大 ， 而 有 一 些 重要 性 
相对 较 低 ， 本 节 我 们 将 讨论 如 何 使 用 scikit-learn 进行 目 动 特征 选择 。 


10.3.1 使 用 单一 变量 法 进行 特征 选择 


有 一 定 统 计 学 基础 的 读者 朋友 可 能 了 解 ， 在 统计 学 中 ， 我 们 会 分 析 在 样本 特征 和 目 
标 之 间 是 否 会 有 明显 的 相关 性 。 在 进行 统计 分 析 的 过 程 中 ， 我 们 会 选择 那些 置信 和 度 最 高 
的 样本 特征 来 进行 分 析 。 当 然 这 只 适用 于 样本 特征 之 间 没 有 明显 关联 的 情况 ， 也 就 是 大 
家 常 说 的 单一 变量 法 〈univariate) 。 

举 个 例子 ， 在 市 场 营销 中 ， 玩 具 厂 商 更 关注 目标 人 群 的 年 龄 ， 不 同年 龄 段 的 儿童 对 
于 玩具 的 需求 是 不 相同 的 , 所 以 厂商 更 倾 回 于 根据 年 龄 来 细 分 市 场 , 并且 进 行 产 品 设 计 。 
而 小 额 贷 球 公 司 更 关心 客户 的 偿 债 能 力 ， 因 此 会 将 目标 客户 的 收入 情况 作为 更 重要 的 特 
征 。 在 这 种 情况 下 , 有 些 不 是 那么 重要 的 特征 就 会 被 剔除 。 这 种 方法 的 优点 是 计算 量 较 小 ， 
而 且 不 需要 建 模 ， 只 用 基本 的 方差 分 析 就 可 以 实现 了 。 

在 scikit-learn 中 ， 有 车 干 种 方法 可 以 用 来 进行 特征 选择 ， 其 中 最 人 简单 的 两 种 是 
SelectPercentile 和 SelectKBest， 其 中 SelectPercentile 是 自动 选择 原始 特征 的 百分比 ， 
例如 原始 数据 的 特征 数 是 200 个 ， 那 么 SelectPercentile 的 pecentile 参数 设置 为 50， 就 
会 选择 100 个 原始 特征 中 的 50%， 即 100 个 ， 而 SelectKBest 是 自动 选择 天 个 最 重要 的 
特征 。 

下 面 我 们 用 一 个 非常 刺激 的 数据 集 来 做 个 实验 。 说 这 个 数据 集 刺 激 ， 是 因为 它 是 来 
目 中 国 股 市 。 我 们 用 证 券 交 易 软 件 导出 了 当日 全 部 A 股 股票 的 交易 数据 ， 保 存 成 为 了 一 
个 csv 文件 ， 并 且 去 掉 了 无 效 数据 。 下 面 我 们 试看 用 这 个 数据 集训 练 一 个 机 器 学 习 模 型 。 
在 Jupyter Notebook 中 输入 代码 如 下 : 


# 导 入 pandas 
import pandas as pd 


# 读 取 股 票数 据 集 


stock = ра.геаа сзу ('а: /зіоск dataset/071013.csv',encoding="GBK') 
# 打 印 结果 
print (stock .head() ) 


运行 代码 ， 会 得 到 如 图 10-18 所 示 的 结果 。 
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10-18 ”pandas 读 取 的 股票 数据 集 


【 结果 分 析 】 从 结果 中 可 以 看 到 ， 这 个 csv 文件 中 包括 43 列 ， 分 别 对 应 股票 的 代码 、 
名 称 、 涨 幅 《〈 以 百分比 表示 ) 、 现 价 、 涨 跌 、 买 价 、 卖 价 等 信息 。 

我 们 的 目标 是 通过 回归 分 析 ， 预 测 股 票 的 涨幅 (负数 表示 跌幅 ) 。 所 以 target 是 “ 涨 
幅 ” 这 一 列 ， 输 入 代码 如 下 : 


运行 代码 ， 会 得 到 如 图 10-19 所 示 的 结果 。 


10-19 了 的 数据 形态 和 第 一 个 样本 的 数值 


【 结果 分 析 】 结果 表示 , 我 们 一 共有 3421 个 样本 ， 而 第 一 个 样本 ， 也 就 是 名 称 为 “ 平 
安 银 行 ” 的 股票 ， 当 日 的 涨幅 为 -2.53%。 这 说 明 我 们 指定 target 成 功 。 
接 下 来 要 指定 样本 的 特征 ， 输 入 代码 如 下 : 


运行 代码 ， 会 得 到 如 图 10-20 所 示 的 结果 。 
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10-20 了 X 值 的 数据 形态 和 第 一 个 数据 点 的 特征 值 


【 结果 分 析 】 从 结果 我 们 看 到 ， 样 本 特征 一 共有 23 个 ， 即 从 “现价 ”一 直到 “流通 
E dL) ”这 一 列 。 下 面 的 数组 是 第 一 个 样本 的 全 部 特征 值 ， 这 里 我 们 看 到 特征 值 之 间 
的 数量 级 差别 比较 大 ， 从 e 的 -2 次 方 到 8 次 方 ， 这 样 的 话 ， 我 们 在 训练 模型 之 前 ， 需 要 
用 scikit-learn 的 预 处 理 模 块 进行 一 下 数据 缩放 。 
这 里 我 们 选择 使 用 StandardScaler。 在 Jupyter Notebook 中 输入 代码 如 下 : 
# 导 入 数据 集 拆 分 工具 


from sklearn.model selection import train test split 
# 导 入 StandardScaler 
from зКТеагп.ргергосезз1па import StandardScaler 


# 设 置 神经 网 络 隐 藏 层 参 数 和 alpha 参 数 

mlpr=MLPRegressor (random state=62, hidden layer sizes=(100,100),alpha=0.001) 
Х Егатп, X test, y train, y test- train test зр115(Х,у, random state=62) 
# 对 数据 进行 预 处 理 

scaler = StandardsScaler () 

scaler.fit (X train) 

X train scaled = зса1іег.ігапзЁогтю (х train) 

Х test scaled = scaler:transform{X test) 

# 训 练 神经 网 络 

mlpr.fit (X train scaled, у train) 

# 打 印 模 型 分 数 

ргіпі+ ( :模型 准确 率 : {:.2f}'.format (мрг.зсоге (Х test зса1еа, у test) ) ) 


运行 代码 ， 会 得 到 模型 的 预测 准确 率 如 图 10-21 所 示 。 


10-21 ”模型 准确 率 为 0.93 


【 结果 分 析 】 我 们 看 到 ， 用 神经 网 络 对 A 股 涨幅 进行 回归 分 析 ， 模 型 的 预测 准确 率 
达到 了 93%， 可 以 说 是 一 个 可 以 接受 的 成 绩 。 
下 面 我 们 列 出 那些 涨幅 大 于 或 等 于 1096 的 股票 ， 输 入 代码 如 下 : 


# 列 出 涨幅 大 于 或 等 于 9% 的 股票 
wanted = stock.loc[:," 名 称 ' ] 
print (wanted[y>=10]) 


运行 代码 ， 会 得 到 股票 的 名 称 如 图 10-22 所 示 。 


10-22 ”涨幅 大 于 或 等 于 10% 的 股票 


股市 有 风险 ， 投 资 需 谨 慎 。 上 面 的 分 析 过 程 用 的 方法 只 是 用 来 尝试 对 当日 股票 进行 
价格 回归 ， 不 代表 股票 未 来 的 价格 变化 ， 请 勿 以 此 作为 投资 建议 。 切 记 切 记 ! 


下 面 我 们 使 用 SelectPercentile 来 进行 特征 选择 ， 输 入 代码 如 下 : 
# 导 入 特征 选择 工具 


from sklearn. feature selection import SelectPercentile 


# 设 置 特征 选择 参数 


select = SelectPercentile (регсепіі1е=50) 
select.fit (X train scaled, у train) 
X Егатп selected = зеТтес .СгапзГогш (х train зса1еа) 


# 打 印 特征 选择 结果 
printi 经 过 缩放 的 特征 形态 : {}".format (X train scaled.shape)) 
PEIRE: 特征 选择 后 的 特征 形态 :{} -format(X train зе! есТед.зпаре) ) 


这 里 我 们 指定 SelectPercentile 的 百分比 参数 percentile 为 50， 即 保留 我 们 在 上 一 部 缩 
放 之 后 的 数据 5096 的 特征 ， 运 行 代码 会 得 到 如 图 10-23 所 示 的 结果 。 


Hr 
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10-23 ”经 过 特征 选择 前 后 特征 数量 对 比 
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【 结果 分 析 】 从 结果 中 可 以 看 出 ， 原 始 数据 集中 的 特征 数 是 23 个 ， 而 经 过 特征 选择 
之 后 ， 特 征 数 仅 为 11 个 了 。 
究竟 哪些 特征 被 保留 下 来 ， 而 哪些 特征 被 去 把 了 呢 ? 可 以 使 用 get_support 方法 来 得 


# 查 看 哪些 特征 被 保留 下 来 


mask = select.get support() 
print (mask) 


运行 代码 ， 会 得 到 如 图 10-24 所 示 的 结果 。 
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10-24 ”特征 选择 结果 


【 结果 分 析 】 在 结果 中 ，False 代表 该 特征 没有 被 选择 ， 相 反 地 ，True 代表 特征 被 选 
择 了 ， 对 照 前 面 的 特征 名 称 ， 可 以 看 出 被 选择 的 特征 包括 涨 跌 、 总 量 、 现 量 、 换 手 率 、 
总 金额 、 量 比 、 振 幅 、 内 盘 、 外 盘 、 内 外 比 和 买 量 。 如 果 是 有 股票 投资 经 验 的 朋友 可 以 
看 出 ， 这 几 个 交易 数据 确实 是 和 涨幅 有 最 直接 的 相关 性 。 

下 面 我 们 还 可 以 用 图 形 直观 地 看 一 下 特征 选择 的 结果 ， 输 入 代码 如 下 : 

# 使 用 图 像 表 示 特 征 选择 的 结果 


plt.matshow (mask.reshape(l1,—-1),cmap=plt.cm.cool) 
plt.xlabel ("Features Selected") 

# 显 示 图 像 

plt.show() 


运行 代码 ， 会 得 到 如 图 10-25 所 示 的 结果 。 
10 15 20 


-04 й = E 
-02 | 

0.0 

02 | 

04 z | 


Team Selected 
10-25 ”用 图 像 展 示 特 征 选择 的 结果 


那么 经 过 特征 选择 之 后 的 数据 集训 练 的 神经 网 络 模型 表现 会 怎样 呢 ? 我 们 用 下 面 的 


# 使 用 特征 选择 后 的 数据 集训 练 神经 网 络 

Х test зеІесіеа = select. transftormlX test зса1еа) 

mlpr зр=МІРКедгеззог (random зіаіе=62, hidden layer зіғез= (100,100), 
а1рћһа=0.001) 

mlpr sp.fit(X train selected, у train) 
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# 打 印 模型 分 数 
print 特征 选择 后 模型 得 分 : {:.2Е}'.Ғогтаї (mipr зр.зсоге(Х test selected, 
у Еезг))) 


运行 代码 ， 会 得 到 如 图 10-26 所 示 的 结果 。 
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10-26 ”特征 选择 后 的 模型 得 分 


【 结果 分 析 】 在 进行 特征 选择 之 后 ， 模 型 的 评分 轻微 地 降低 了 。 这 是 非常 正常 的 ， 
因为 我 们 的 数据 集 并 不 包括 噪声 。 对 于 噪声 特别 多 的 数据 集 来 说 ， 进 行 特征 选择 之 后 模 
型 评分 会 提高 ， 而 不 是 降低 。 

以 上 就 是 使 用 单一 变量 法 进行 特征 选择 的 方法 ， 这 种 方法 并 不 依赖 于 你 用 什么 样 的 
算法 进行 建 模 ， 也 就 是 说 无 论 使 用 哪 一 个 模型 ， 它 对 数据 进行 处 理 的 方式 都 是 一 样 的 。 
接 下 来 ， 我 们 要 介绍 另外 一 种 特征 选择 的 方法 : 基于 模型 的 特征 选择 。 


10.3.2 ”基于 模型 的 特征 选择 


在 上 面 这 个 小 节 当 中 ， 我 们 使 用 了 单一 变量 法 对 数据 特征 进行 了 选择 ， 接 下 来 我 们 
要 学 习 一 个 更 加 强大 的 工具 来 对 数据 特征 进行 选择 ， 那 就 是 基于 模型 的 特征 选择 。 基 于 
模型 的 特征 选择 工作 原理 是 ， 先 使 用 一 个 有 监督 学 习 的 模型 对 数据 特征 的 重要 性 进行 判 
断 ， 然 后 把 最 重要 的 特征 进行 保留 。 当 然 ， 这 一 步 中 用 到 的 模型 和 最 终 用 来 进行 预测 分 
析 的 模型 不 一 定 是 同一 个 。 

下 面 我 们 用 scikit-learn 中 的 SelectFromModel 功能 来 对 股票 数据 集 进 行 实验 ， 在 


Jupyter Notebook 中 输入 代码 如 下 : 
# 导 入 基于 模型 的 特征 选择 工具 


from sklearn.feature selection import SelectFromModel 

# 导 入 随机 森林 模型 

from sklearn.ensemble import RandomForestRegressor 

# 设 置 模型 n estimators% 

sfm = SelectFromModel (RandomForestRegressor (п estimators=100, 
random state=38), 

threshold='median') 

# 使 用 模型 拟 合 数据 

sfm.fit (X train scaled, у train) 

X train sfm = sfm.ťtransform(X train scaled) 

# 打 印 结果 

printi ' 基 于 随机 森林 模型 进行 特征 后 的 数据 形态 : {}'.format (XxX train sfm.shape) ) 
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从 上 面 的 代码 可 以 看 到 ， 我 们 使 用 了 随机 森林 回归 模型 来 进行 特征 选择 。 为 什么 要 
使 用 随机 和 森林 呢 ? 因为 包括 随机 森林 在 内 的 基于 决策 树 的 算法 都 会 内 置 一 个 称 为 feature_ 
importances_ 的 属性 ， 我 们 可 以 让 SelectFromModel 直接 从 这 个 属性 中 抽取 特征 的 重要 性 。 
当然 除了 随机 森林 之 外 ， 其 他 算法 也 是 可 以 的 ， 例 如 使 用 Ll 正则 化 的 线性 模型 ， 它 们 可 
以 对 数据 空间 的 黎 芯 系数 进行 学 习 ， 从 而 可 以 当 作 特征 重要 性 来 抽取 。 原 本 这 个 系数 是 
线性 模型 用 来 为 目 己 建 模 的 ， 我 们 也 可 以 借助 它 来 帮助 其 他 模型 进行 数据 预 处 理 。 

现在 运行 上 面 的 代码 ， 会 得 到 如 图 10-27 所 示 的 结果 。 


10-27 ”经 过 随机 森林 模型 进行 特征 筛选 后 的 数据 特征 


【 结果 分 析 】 从 图 10-27 中 我 们 看 到 ， 通 过 基于 随机 森林 模型 进行 特征 选择 之 后 ， 
数据 集中 样本 的 特征 还 剩 下 12 个 ， 比 原始 的 特征 数量 少 了 11 个 ， 而 比 用 单一 变量 法 进 
行 特征 选择 的 结果 多 了 一 个 。 

下 面 我 们 看 一 下 基于 随机 森林 模型 的 特征 选择 有 什么 区 别 。 输 入 代码 如 下 : 

# 显 示 保 留 的 特征 


mask sfm = sfm.get support () 
print (mask sfm) 


运行 代码 ， 会 得 到 如 图 10-28 所 示 的 结果 。 


аз Irar Tabser Træ alue Те Райл Райт Dra laler Tree Тев 


газа Ра ТРИ Беа Filar Tilar 1ra Cr IT IY ВЕ] 


10-28 ”随机 森林 模型 保留 的 数据 特征 


【 结果 分 析 】 从 结果 中 可 以 看 出 ， 基 于 随机 森林 的 特征 选择 保留 了 数据 的 第 2、4、6、 
9、11、12、15、16、19、20、21、22 个 特征 ， 分 别 对 应 的 是 “ 涨 跌 ”“ 换 手 ”“ 今 开 ” 
“最 高 ”“ 最 低 ”“ 上 昨 收 ”“ 总 金额 ”“ 量 比 ”“ 振 幅 ”“ 内 外 比 ”“ 卖 量 ” 和 “ 流 
通 股 〈 亿 ) ”。 

同样 地 ， 我 们 也 对 特征 选择 进行 一 下 可 视 化 。 输 入 代码 如 下 : 

# 对 特征 选择 进行 可 视 化 

plt.matshow (mask sfm.reshape(1,-1),cmap=plt.cm.cool) 


plt.xlabel('Features Selected') 
PiLE Shaowt} 
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运行 代码 ， 可 以 得 到 如 图 10-29 所 示 的 结果 。 


) 5 10 15 20 
| Features Selected | 
10-29 ”基于 随机 森林 模型 选择 的 特征 


【 结果 分 析 】 对 比 图 10-29 和 图 10-25， 大 家 可 以 很 直观 地 看 到 基于 随机 森林 模型 进 
行 的 特征 选择 和 使 用 单一 变量 法 进行 特征 选择 的 区 别 。 

我 们 在 进行 特征 选择 的 过 程 中 ， 使 用 了 一 个 有 100 棵 决策 树 的 随机 森林 ， 这 使 得 模 
型 相当 复杂 ， 但 是 它 的 结果 会 比 单一 变量 法 强悍 很 多 。 同 时 我 们 指定 threshold 参数 ， 也 
Же “BE” X median 中 位 数 ， 这 就 意味 着 模型 会 选择 一 半 左 右 的 特征 。 下 面 我 们 实际 
看 一 下 ， 经 过 随机 森林 模型 选择 的 特征 ， 在 实际 训练 模型 中 表现 如 何 。 输 入 代码 如 下 : 

# 使 用 特征 选择 后 的 数据 集训 练 神经 网 络 


Х test sim = sftm transtormlX безі scaled) 

mlpr sfm=MLPRegressor (random state=62, hidden layer sizes=(100,100), 
alpha=0 .001) 

штрг зЕш.ПЕ(Х train sim, у train) 

# 打 印 结果 

print (' 随 机 森林 进行 特征 选择 后 的 模型 得 分 : {:.2f}'.format ( 


milpr sfm.score(X test sfm, у test))) 


运行 代码 ， 将 会 得 到 如 图 10-30 所 示 的 结果 。 


мт сид: Мае вм 


10-30 ”特征 选择 后 的 模型 评分 达到 0.95 


【 结果 分 析 】 从 结果 中 可 以 看 出 ， 使 用 随机 森林 进行 特征 选择 之 后 ， 在 其 他 参数 都 
不 变 的 情况 下 ， 模 型 的 得 分 比 使 用 单一 变量 法 进行 特征 选择 的 分 数 高 了 很 多 ， 甚 至 比 使 
用 原始 数据 集 的 分 数 还 要 更 高 ， 看 起 来 效果 还 是 非常 显著 的 。 

接 下 来 ， 我 们 还 要 再 介绍 一 种 更 加 强悍 的 特征 选择 方法 一 一 和 达 代 式 特征 选择 。 


10.3.3 ЖЕКЕ 


М АХ, ЖИКЕ ЕЕЕ РА РАУ УТЕ ВЕ. ТЕ scikit-learn 中 ， 有 
МИКАЛЕ Я (Recurise Feature Elimination, RFE) 的 功能 就 是 通过 这 种 方式 
来 进行 特征 选择 的 。 在 最 开始 , RFE 会 用 某 个 模型 对 特征 进行 选择 , 之 后 再 建立 两 个 模型 ， 
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其 中 一 个 对 已 经 被 选择 的 特征 进行 筛选 ， 另 外 一 个 对 被 剔除 的 模型 进行 利 选 ， 然 后 一 直 
重复 这 个 步骤 ， 直 到 达到 我 们 指定 的 特征 数量 。 这 种 方式 比 前 面 我 们 学 习 的 基于 单个 模 
型 进行 特征 选择 更 加 强悍 ， 但 是 相应 地 ， 对 计算 能 力 的 要 求 也 更 高 。 

下 面 我 们 就 试 一 下 用 RFE 对 股票 数据 集 进 行 特征 选择 ， 看 对 预测 结果 会 有 什么 样 的 
影响 。 输 入 代码 如 下 : 

# 导 入 RFE 工 具 


from sklearn.feature selection import КЕЕ 

rfe = RFE (RandomForestRegressor (n estimators=100, 
random state=38), 

п ғевготеч tO зейеср-та) 

# 使 用 REFE 工 具 拟 合 数据 

rfe.fit (X train scaled, у train) 

# 显 示 保 留 的 特征 

mask = rfe.get зиррог+() 

print (шазк) 


为 了 和 前 面 基于 单个 模型 的 特征 选择 进行 比较 ， 我 们 设置 ВЕЕ 算 选 的 特征 数量 也 为 
12 个 。 运 行 代 码 ， 可 以 看 到 REFE 保留 的 特征 都 有 哪些 ， 如 图 10-31 所 示 。 


上 


Райт Tilk Те Тече Райл Filat Тея Тече Ге M Зайте | 


10-31 RFE 进行 的 特征 筛选 


【 结果 分 析 】 从 结果 中 可 以 看 到 ，RFE 选择 的 特征 有 “现价 ”“ 涨 跌 ”“ 总 量 ”“ 换 
P” “AF” “EIR” “FER” “AEA “EWE” “WE” GHA” M “ASh” 
这 12 个 特征 。 

下 面 用 可 视 化 的 方式 表示 一 下 ， 输 入 代码 如 下 : 

# 绘 制 RFE 保 留 的 特征 


plt.matshow (шазк.гезпаре(1,-1), cmap=plt.cm.cool) 
plt.xlabel('Features Selected') 

# 显 示 图 像 

plt.show() 


运行 代码 ， 会 得 到 如 图 10-32 所 示 的 结果 。 
0 


5 10 15 20 
F ope Selected 
10-32 RFE 选择 的 特征 
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【 结果 分 析 】 从 图 10-32 中 可 以 直观 地 看 到 ，RFE 选择 的 特征 和 单一 变量 法 及 基于 
单个 模型 的 特征 选择 结果 都 不 相同 ， 那 么 RFE 筛选 的 结果 在 相同 的 模型 下 ， 预 测 准确 率 
会 发 生 什 么 样 的 变化 呢 ? 

我 们 继续 用 神经 网 络 模型 来 实验 一 下 ， 输 入 代码 如 下 : 

# 使 用 新 的 数据 集训 练 神经 网 络 


xX train rfe = гѓе.ігапзҒогт (Х Erain scaled) 

X test rie = тге-.ггаозтоти(“ teat scaled) 

mlpr rfe = MLPRegressor (random state=62, hidden layer sizes=(100,100), 
alpha=0.001) 

mlpr rfe.fit(X train rfe, y train) 

# 打 印 模型 得 分 

ргіпі ("RFE 选 择 特 征 后 的 模型 得 分 :1{: .2f}".format (mipr гГе.зсоге(Х test rfe, 

y_test))) 


运行 代码 ， 会 得 到 模型 的 评分 如 图 10-33 所 示 。 


10-33 ”使 用 RFE 进行 特征 选择 之 后 的 模型 分 数 


【 结果 分 析 】 从 结果 中 我 们 看 出 ， 使 用 RFE 进行 特征 选择 后 ， 模 型 得 分 比 使 用 原始 
数据 特征 的 得 分 略 高 ， 比 单个 模型 选择 的 特征 相 比 ， 分 数 基 本 一 致 。 由 此 我 们 可 以 看 出 ， 
不 同 的 方法 并 没有 绝对 的 好 和 不 好 ， 只 是 适用 于 不 同 的 场景 吴 了 。 


10.4 ОМА 


人 至此， 本 章 的 内 容 就 告 一 段落 了 。 回 顾 一 下 ， 我 们 在 一 开始 先 学 习 了 对 于 类 型 特 
征 的 处 理 一 一 使 用 get_dummies 将 字符 串 型 的 类 型 特征 转化 为 整形 数值 的 连续 特征 ， 之 
后 又 学 习 了 如 何 对 数据 进行 装 箱 处 理 。 接 下 来 是 对 数据 进行 “ 升 维 ”: 使 用 交互 式 特征 
(Interactive Features) 或 多 项 式 特 征 〈Polynomial Features) 法 ， 将 原本 维度 较 低 的 数据 
集 的 维度 进行 扩充 ， 以 便 让 本 身 比 较 简 单 的 模型 〈 如 线性 模型 ) 能 有 更 好 的 表现 。 最 后 
我 们 学 习 3 种 不 同 的 目 动 特征 选择 方法 ， 包 括 单一 变量 法 、 基 于 模型 的 特征 选择 ， 以 及 
友 代 式 特 征 选择 。 经 过 了 本 章 的 阅读 后 ， 相 信 读 者 朋友 们 已 经 可 以 自如 地 对 数据 集中 的 
特征 进行 加 工 了 ， 请 各 位 尽量 把 本 章 的 案例 动手 操作 一 裔 ， 这 样 可 以 便于 加 深 印 象 ， 有 
利于 我 们 在 实践 中 能 够 更 加 得 心 应 手 。 


第 11 章 ”模型 评估 5 优化 一 只 有 更 好 ， 
没有 最 好 


经 过 了 前 面 几 章 的 学 习 , 相信 很 多 读者 朋友 已 经 对 常见 的 一 些 算法 有 了 大 概 的 了 解 ， 
并 且 可 以 开始 使 用 一 些 数据 集 进行 模型 的 训练 。 但 是 ， 针 对 不 同 的 数据 集 不 同 的 模型 表 
现 如 何 ? 此 外 我 们 应 该 如 何 调整 模型 的 参数 ， 让 它们 的 表现 达到 最 佳 ? 本 章 将 为 大 家 介 
绍 这 部 分 内 容 。 

本 章 主 要 涉及 的 知识 点 有 : 

3 使 用 交叉 验证 对 模型 进行 评估 

3 使 用 网 格 搜索 寻找 模型 的 最 优 参数 

э 对 分 类 模型 的 可 信 度 进行 评估 


深入 浅 出 Python 机 器 学 习 


11.1 使 用 交叉 验证 进行 模型 评估 


在 前 面 的 内 容 中 ， 我 们 常常 使 用 scikit-learn 中 的 train_test_split 功能 来 将 数据 集 拆 
分 成 训练 数据 集 和 测试 数据 集 ， 然 后 使 用 训练 数据 集 来 训练 模型 ， 再 用 模型 去 拟 合 测 
试 数据 集 并 对 模型 进行 评分 ， 来 评估 模型 的 准确 度 。 除 了 这 种 方法 之 外 ， 我 们 还 可 以 
用 一 种 更 加 粗暴 的 方式 来 验证 模型 的 表现 ， 也 就 是 本 节 中 要 介绍 的 交叉 验证 法 (Cross 
Validation) 。 


11.1.1 scikit-learn 中 的 交叉 验证 法 


在 统计 学 中 ， 交 又 验 证 法 是 一 种 非常 党 用 的 对 于 模型 泛 化 性 能 进行 评估 的 方法 。 和 
我 们 之 前 所 用 的 train_test_split 方法 所 不 同 的 是 ， 交 叉 验 证 法 会 反复 地 拆 分 数据 集 ， 并 用 
来 训练 多 个 模型 。 所 以 我 们 说 这 种 方法 更 加 粗暴 。 

在 scikit-learn 中 默认 使 用 的 交叉 验证 法 是 开 折 县 交叉 验证 法 (k-fold cross 
validation〉。 这 种 方法 很 容易 理解 一 一 它 将 数据 集 拆 分 成 Xk 个 部 分 ， 再 用 Kk 个 数据 集 对 
模型 进行 训练 和 评分 。 例 如 我 们 令 X 等 于 5， 则 数据 集 被 拆 分 成 5 个 ， 其 中 第 1 个 子 集 
会 被 作为 测试 数据 集 ， 另 外 4 个 用 来 训练 模型 。 之 后 再 用 第 2 个 子 集 作为 测试 集 ， 而 男 
外 4 个 用 来 训练 模型 。 依 此 类 推 ， 直 到 把 5 个 数据 集 全 部 用 完 ， 这 样 我 们 就 会 得 到 5 个 
模型 的 评分 。 

此 外 ， 交 叉 验 证 法 中 还 有 其 他 的 方法 ， 例 如 “随机 拆 分 交叉 验证 法 ” (shuffle-split 
cross validation) 和 “挨个 儿 试 试 ” (leave-one-out) 法 。 

下 面 我 们 先 来 了 解 一 下 交叉 验证 法 的 使 用 方法 ， 在 Jupyter Notebook 中 新 建 一 个 
Python 3 的 记事 本 ， 输 入 代码 如 下 : 

# 导 入 红酒 数据 集 


from sklearn.datasets import load wine 

# 导 入 交叉 验证 工具 

from sklearn.model selection import сгозз уа! score 
# 导 入 用 于 分 类 的 支持 向 量 机 模型 

from sklearn.svm import SVC 

# 载 入 红酒 数据 集 

wine = load міпе () 

# 设 置 SVC 的 核 溺 数 为 ] inear 

svc = SVC (kernel="'linear') 

# 使 用 交叉 验证 法 对 SVC 进 行 评分 

scores = cross val scorel(svc, wine.data, wine.target) 
# 打 印 结果 

Print(' 交 叉 验 证 得 分 : {} 5 .format (зсогез)) 
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运行 代码 ， 会 得 到 如 图 11-1 所 示 的 结果 。 


TTA | .JE +i 


11-1 SVC 的 交叉 验证 得 分 


【 结果 分 析 】 在 这 段 代 码 中 ， 我 们 先导 入 了 scikit_learn 的 交叉 验证 评分 类 ， 然 后 使 
用 SVC 对 酒 的 数据 集 进 行 分 类 ， 在 默认 情况 下 ，cross_val_score 会 使 用 3 AAE, АШ, 
我 们 会 得 到 3 个 分 数 。 

那么 究竟 模型 的 得 分 是 其 中 哪 一 个 呢 ? 这 里 我 们 一 般 使 用 3 个 得 分 的 平均 分 来 计算 ， 
可 以 通过 如 下 的 代码 来 计算 平均 分 : 


# 使 用 .mean () 来 获得 分 数 平均 值 
print (' 交 叉 验 证 平均 分 : {:.3f}'.format (зсогез.теап ())) 


运行 代码 ， 会 得 到 如 图 11-2 所 示 的 结果 。 


11-2 SVC 的 交叉 验证 平均 分 


【 结果 分 析 】 我 们 看 到 ， 在 酒 的 数据 集中 ， 交 又 验 证 法 平均 分 为 0.928 分 ， 是 一 个 
还 不 错 的 分 数 。 
如 果 我 们 希望 能 够 将 数据 集 拆 成 5 个 部 分 来 评分 ， 只 要 修改 cross_val_score 的 cv 参 
数 就 可 以 了 ， 例 如 我 们 想 要 修改 为 6 个， 输入 代码 如 下 : 
# 设 置 cv 参 数 为 6 


scores = cross val scorel(svc, vwine.data, wine.target, су=6) 
# 打 印 结果 
print (' 交 叉 验 证 得 分 : \n{}'.format (зсогез)) 


运行 代码 ， 会 得 到 6 个 分 数 如 图 11-3 所 示 。 


Ё. 有 bi | 


11-3 cv 参数 等 于 6 时 交叉 验证 得 分 
接 下 来 我 们 依然 可 以 使 用 score.mean() 来 获得 分 数 平均 值 ， 输 入 代码 如 下 : 
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# 计 算 交 叉 验 证 平均 分 
print ( "交叉 验 证 平均 分 : {:.3f}'.format (зсогез.шеап ())) 


运行 代码 ， 会 得 到 如 图 11-4 所 示 的 结果 。 


11-4 cv 参数 为 6 时 的 交叉 验证 平均 分 


【 结果 分 析 】 从 结果 中 ， 可 以 看 到 交叉 验证 法 给 出 的 模型 平均 分 为 0.944， 说 明 模 型 
的 表现 还 是 非常 不 错 的 。 需 要 说 明 的 是 ， 在 scikit-learn 中 ，cross_val ѕсоге 对 于 分 类 模型 
默认 使 用 的 是 X 折 车 交 双 验证， 而 对 于 分 类 模型 则 默认 使 用 分 层 k 交 又 验 证 法 。 
要 解释 清楚 什么 是 分 层 k 折 车 交叉 验证 法 ， 我 们 需要 先 分 析 一 下 酒 的 数据 集 ， 我 们 
使 用 下 面 这 行 代码 来 看 一 下 酒 的 分 类 标签 : 


# 打 印 红 酒 数据 集 的 分 类 标签 
Princi- 酒 的 分 类 标签 :\n{}'.format (wine.target)) 


运行 代码 ， 可 以 看 到 全 部 的 分 类 标签 如 图 11-5 Рог. 


【 结果 分 析 】 从 结果 中 可 以 看 出 ， 如 果 用 不 分 层 的 k 折 于 的 交 又 验证 法 ， 那 么 在 拆 
分 数据 集 的 时 候 ， 有 可 能 每 个 子 集中 都 是 同一 个 标签 ， 这 样 的 话 模型 评分 都 不 会 太 高 。 
而 分 层 X 折 和 登 交 叉 验 证 法 的 优势 在 于 ， 它 会 在 每 个 不 同 分 类 中 进行 拆 分 ， 确 保 每 个 子 集 
中 都 有 数量 基本 一 致 的 不 同 分 类 标签 。 举 例 来 说 ， 假 如 你 有 一 个 人 口 性 别 数据 集 ， 其 中 
有 8096 是 “男性 ”， 只 有 2096 是 “女性 ”， 分 层 k 折 车 交叉 验证 法 会 保证 在 你 的 每 个 子 
集中 ， 都 有 80% 的 男性 ， 其 余 20% 是 女性 。 


11.1.2 ”随机 拆 分 和 和 “挨个 儿 试 试 ” 


接 下 来 ， 我们 要 再 介绍 两 种 交叉 验证 的 方法 ,一 种 是 随机 拆 分 交叉 验证 (shuffle-split 
cross-validation) ， 男 一 种 是 “挨个 儿 试 试 ” (leave-one-out) 方法 。 先 来 看 随机 拆 分 交 
叉 验证 法 ， 这 种 方法 的 原理 是 ， 先 从 数据 集中 随机 抽 一 部 分 数据 集 作为 训练 集 ， 再 从 其 
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余 的 部 分 随机 抽 一 部 分 作为 测试 集 ， 进 行 评分 后 再 和 代 ， 重 复 上 一 步 的 动作 ， 直 到 把 我 
们 希望 迭代 的 次 数 全 部 跑 完 。 为 了 让 大 家 能 够 更 直观 地 了 解 ， 我 们 还 是 使 用 酒 的 数据 集 


来 进行 实验 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 
# 导 入 随机 差分 工具 


from sklearn.model selection import ShuffleSplit 
# 设 置 拆 分 的 份 数 为 10 个 
зпиъЕ Не split = Shullesplit(test зі2е=.2, train зіг2е=.7, 
п splits = 10) 
# 对 拆 分 好 的 数据 集 进 行 交 叉 验 证 
scores = сгозз val scorel(svc, wine.data, wine.target, cv=shuffle split) 
# 打 印 交 叉 验 证 得 分 
print (' 随 机 拆 分 交叉 验证 模型 得 分 : \n{}' .format (зсогез)) 


从 代码 中 大 家 可 以 看 到 ， 我 们 把 每 次 迭 代 的 测试 集 设置 为 数据 集 的 20%， 而 训练 集 
设置 为 数据 集 的 70%， 并 且 把 整个 数据 集 拆 分 成 10 个 子 集 。 运 行 代码 ， 会 得 到 如 图 11-6 
所 示 的 结果 。 


мен тииФта 


| 里 -la E DEREI Ф TIIMI # 97212172 #8 #Г2177277 恒生 
я i а 3а1а4ащда Ф tpai rT | 


11-6 RITA 10 个 子 集 后 的 交叉 验证 得 分 


【 结果 分 析 】 从 结果 中 可 以 看 出 ，ShuffleSplit 一 共 为 SVC 模型 进行 了 10 次 评分 。 
而 模型 最 终 的 得 分 也 就 是 10 个 分 数 的 平均 值 。 

下 面 我 们 再 来 介绍 一 下 “挨个 儿 试 试 ” 法 ， 这 种 方法 的 原理 就 和 名 字 一 样 搞 笑 一 一 
它 其 实 有 点 像 折 全 交 又 验 证 ， 不 同 的 是 ， 它 把 每 一 个 数据 点 都 当成 一 个 测试 集 ， 所 以 
你 的 数据 集 里 有 多 少 样本 ， 它 就 要 迭代 多 少 次 。 如 果 数 据 集 大 的 话 ， 这 个 方法 还 是 真 挺 
耗 时 的 。 但 是 如 果 数 据 集 很 小 的 话 ， 它 的 评分 准确 度 是 最 高 的 。 下 面 我 们 用 酒 的 数据 集 
来 进行 实验 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 


# 导 入 LeaveOneOut 

from sklearn.model selection import LeaveOneOut 

# 设 置 cv 参 数 为 leaveoneout 

су = Теауедбпеочт () 

# 重 新 进行 交叉 验证 

scores = сгозз val scorel(svc, и1пе.дага, wine.target, су-су) 
# 打 印 和 迭代 次 数 

print :迭代 次 数 :{} .format (len (зсогез))) 

打印 评分 结果 

print ("模型 平均 分 : {}".format (зсогез.тмеап ())) 


在 经 过 漫长 的 等 竺 之后， 终于 得 到 了 如 图 11-7 所 示 的 结果 。 
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11-7 LeaveOneOut 的 交叉 验证 结果 


【 结果 分 析 】 由 于 酒 的 数据 集中 一 共有 178 个 样本 ， 这 意味 着 “挨个 儿 试 试 ” 法 得 
ЗА 178 次 ， 最 后 给 出 评分 为 0.955 分 。 


11.13 ”为 什么 要 使 用 交叉 验证 法 


现在 读者 朋友 可 能 在 想 ， 既 然 我 们 有 了 train_test_split， 为 什么 还 要 使 用 交叉 验证 法 
呢 ? 毕竟 交叉 验证 法 最 后 对 模型 进行 的 评分 也 只 是 一 个 平均 数 而 已 啊 ! 

原因 是 这 样 的 : 当 我 们 使 用 train_test_split 方法 进行 数据 集 的 拆 分 时 ，train_test_splt 
用 的 是 随机 拆 分 的 方法 ， 万 一 我 们 拆 分 的 时 候 ， 测 试 集中 都 是 比较 容易 进行 分 类 或 者 回 
归 的 数据 ， 而 训练 集中 都 比较 难 ， 那 么 模型 的 得 分 就 会 偏 高 ， 反 之 模型 的 得 分 就 会 偏 低 。 
我 们 又 不 太 可 能 把 所 有 的 random_state 遍历 一 届 。 而 交叉 验证 法 正好 弥补 了 这 个 缺陷 ， 
它 的 工作 原理 导致 它 要 对 多 次 拆 分 进行 评分 再 取 平 均值 ， 这 样 就 不 会 出 现 我 们 前 面 所 说 
的 问题 。 

此 外 ，train_test_split 总 是 按照 25% ~ 75% 的 比例 来 拆 分 训练 集 与 测试 集 (默认 情 
况 下 ) ， 但 当 我 们 使 用 交叉 验证 法 的 时 候 ， 可 以 更 加 灵活 地 指定 训练 集 和 测试 集 的 大 小 ， 
比如 当 cv 参数 为 10 的 时 候 ， 训 练 集 就 会 占 整 个 数据 集 的 90%， 测 试 集 占 10%; су 参数 
为 20 的 时 候 , 训练 集 的 占 比 就 会 达到 959%， 而 测试 集 占 比 5%。 这 也 意味 看 训练 集会 更 大 ， 
对 于 模型 的 准确 率 也 有 促进 的 作用 。 

不 过 交叉 验证 法 往往 要 比 train_test_split 更 加 消耗 计算 资源 ， 如 果 读 者 朋友 按 上 面 的 
代码 进行 了 实验 ， 就 会 发 现 交 叉 验 证 法 比 train_test_split 要 慢 一 些 。 所 以 在 实际 应 用 中 ， 
大 家 可 以 灵活 使 用 这 两 种 方法 来 对 模型 进行 评估 。 

接 下 来 ， 我 们 要 介绍 的 是 如 何 调整 模型 的 参数 ， 让 分 数 更 高 。 


11.2 使 用 网 格 搜索 优 化 模型 参数 

在 本 书 前 面 的 内 容 中 ， 我 们 接触 了 很 多 不 同 的 算法 ， 也 初步 学 习 了 不 同 的 算法 模型 
中 比较 重要 的 参数 。 相 信 很 多 读者 朋友 在 实验 的 时 候 ， 会 手动 逐个 尝试 不 同 的 参数 对 于 
模型 泛 化 表现 的 影响 ， 这 种 方法 固然 是 有 效 的 ， 不 过 我 们 还 可 以 使 用 一 点 小 技巧 ， 能 够 
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让 我 们 一 次 性 找到 相对 更 优 的 参数 设置 ， 也 就 是 我 们 本 节 中 要 介绍 的 网 格 搜索 法 。 
11.21 简单 网 格 搜 索 


这 里 我 们 用 Lasso 算法 为 例 ， 可 能 大 家 还 有 印象 ， 在 Lasso 算法 中 ， 有 两 个 参数 比 
较 重 要 ， 一 个 是 正则 化 系数 alpha， 另 一 个 是 最 大 迭 代 次 数 max_iter。 在 默认 的 情况 下 ， 
alpha 的 取 值 是 1.0, 而 max_iter 的 默认 值 是 1 000, 假设 我 们 想 试 试 当 alpha 分 别 取 10.0, 1.0, 
0.1, 0.01 这 4 个 数值 ， 而 max_iter 分 别 取 100, 1000, 5 000，10 000 这 4 个 数值 时 ， 模 
型 的 表现 有 什么 差别 ， 如 果 按 照 我 们 之 前 所 用 的 手动 调整 的 话 ， 要 试 16 次 才 可 以 找到 最 
高 分 ， 如 表 11-1 所 列 。 


表 11-1 Lasso 算法 中 不 同 的 参数 调整 次 数 
ПТ. apoo | aprao | арма-то [аралоо 
em 1 | 2 | 和 | + 
ro | 5 | 6 | 7 | 8 


下 面 我 们 试 试 以 酒 的 数据 集 为 例 ,用 网 格 搜索 的 方法 , 一 次 找到 模型 评分 最 高 的 参数 。 
和 输入 代码 如 下 : 
# 导 入 套 索 回归 模型 


from зКкТеагп.11пеаг model import Lasso 

# 导 入 数据 集 拆 分 工具 

from зКкТеагп.шподе! selection import train test split 

# 将 数据 集 拆 分 为 训练 集 与 测试 集 

X train, X test, у Erain, у test traln teat зр1ії (и1пе.даса, 
wine.target, 
random state=38) 


# 设 置 初始 分 数 为 0 
pest score 0 


# 设 置 al1pha 参 数 遍 历 0.01、0.1、1 和 10 
от атрра за lo 0.1, 1.0, 10:01 
# 最 大 迭代 数 遍 历 100、1000、5000 和 10000 
for шах iter іп |100,1000,2000,100001: 

lasso = Lasso(alpha=alpha,max iter=max iter) 
# 训 练 套 索 回 归 模 型 

Таззо. НЕ (Х train; у train) 

score = Іаззо.зсоге (Х Тез, у test) 
# 另 最 佳 分 数 为 所 有 分 数 中 的 最 高 

if score > best score: 

best score = зсоге 

# 定 义 字 典 ， 返 回 最 佳 参数 和 最 佳 最 大 迭代 数 


рез: parameters | "аТрпа" :а1рпа,! вЛЪКХК" :max iter} 
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# 打 印 结 果 
print (" 模 型 最 高 分 为 : .3f}" .format (best score)) 
ргіпі (' 最 佳 参数 设置 ; | } '.format (best parameters)) 


在 这 段 代 码 中 ， 我 们 使 用 了 for 循环 ， 让 模型 过 历 全 部 的 参数 设置 ， 并 找 出 最 高 分 
和 对 应 的 参数 。 运 行 代 码 ， 会 得 到 如 图 11-8 所 示 的 结果 。 


ВЗВЕН" ын 


| Гацее: 8.1, ШЕЛЕР": ва] 


图 11-8 网 格 搜索 结果 


【 结果 分 析 】 从 结果 中 可 以 看 到 ， 使 用 网 格 搜索 法 ， 我 们 快速 找到 了 模型 的 最 高 分 
0.889， 并 且 看 到 在 模型 得 分 最 高 时 ，alpha 的 设置 为 0.01， 而 最 大 友 代 次 数 max_iter 为 
100. 

或 许 看 到 这 里 ， 大 家 会 觉得 我 们 找到 了 一 个 很 好 的 调节 参数 的 办 法 ， 但 是 这 种 方法 
也 是 有 局 限 性 的 。 因 为 我 们 所 进行 的 16 次 评分 都 是 基于 同一 个 训练 集 和 测试 集 ， 这 只 能 
代表 模型 在 该 训练 集 和 测试 集 的 得 分 情况 ， 不 能 反映 出 新 的 数据 集 的 情况 ， 例 如 修改 一 
下 train_test_split 的 random_state 参数 如 下 : 

# 导 入 套 索 回归 


from sklearn.linear model import Lasso 
# 导 入 数据 集 拆 分 工具 
from зкТеагп.шоде! selection import train test split 
# 修 改 random state 参 数 为 0 
X train, X езі, у train, у test train test зр1ії (юи1пе.даса, 
и1пе .Тагает, 
random state=0) 
# 下 面 代码 保持 不 变 
безі зсоге = 0 
tor alpha in [I0.01 7017.10 10-01: 
for шах iter іп [100,1000,5000,10000]: 
lasso = Lasso (а1рһа=а1рһа, тах iter=max iter) 
las30.fit (X train, y train) 
score = Іаззо.зсоге (Х test, у test) 
if score > best score: 
безі зсоге = зсоге 
best рагашетегз- | "а1рпа" :alpha ' 最 大 迭代 次 数 ' : пах iter} 


print ("模型 最 高 分 为 : {: .3f}".format (best score)) 
print (' 最 佳人 参数 设置 : {}'.format (best parameters)) 


在 这 段 代 码 中 ， 我 们 把 train_test_split 的 参数 从 38 改 为 0， 运行 代码 ， 会 得 到 如 图 
11-9 所 示 的 结果 。 


11-9 修改 random_state 参数 后 的 网 格 搜索 结果 


【 结果 分 析 】 现 在 大 家 看 到 ， 稍 微 对 train_test_split 拆 分 数据 集 的 方式 做 一 点 变更 ， 
模型 的 最 高 分 就 降 到 了 0.83， 而 且 此 时 lasso 模型 的 最 佳 alpha 参数 也 从 0.01 变 成 了 0.1. 
为 了 解决 这 个 问题 ， 我 们 可 以 用 前 面 介 绍 的 交叉 验证 法 和 网 格 搜索 法 结合 起 来 寻找 最 优 
参数 。 


11.22 与 交叉 验证 结合 的 网 格 搜 索 


相信 大 家 还 记得 交叉 验证 的 原理 ， 就 是 通过 将 原始 数据 集 拆 分 多 次 ， 生 成 多 个 不 同 
的 训练 集 与 测试 集 ， 然 后 在 里 和 面 找到 最 优 的 模型 得 分 。 下 面 我 们 仍旧 以 酒 的 数据 集 为 例 ， 
来 学 习 一 下 如 何 将 交叉 验证 法 与 网 格 搜索 法 结合 起 来 找到 模型 的 最 优 参数 。 输 入 代码 如 下 : 


# 导 入 numpy 
import numpy as np 
#alpha 参 数 遍 历 0 .01、0 .1、14 和 10 
FOC Alpha чи IOPE 0110 LUN 
#а ХАК 808 5100. 1000. 50008010000 
for шах iter іп |100,1000,2000,100001: 
# 训 | 练 套 索 回归 模型 
lasso = Lasso (а1рһа=а1рһа, тах iter=max iter) 
scores = cross val score (lasso, X train, y train, су-6) 
score = np.mean (scores) 
if score > best score: 
DESE зсоге = зсоге 
best рагашегегз- | "а1рпа" :alpha, :最 大 迭代 数 ， :max iter} 


print ("模型 最 高 分 为 : (:.ЗЕ!|".Тогшас (best зсоге)) 
print(' 最 佳 参数 设置 : {} ' .format (рез Parameters) ) 


运行 代码 ， 可 以 得 到 如 图 11-10 所 示 的 结果 。 


11-10 针对 训练 集 的 网 格 搜索 结果 


【 结果 分 析 】 这 里 我 们 做 了 一 点 手脚 ， 就 是 只 用 先前 拆 分 好 的 X_train 来 进行 交叉 验 
证 ， 以 便于 我 们 找到 最 佳 参数 之 后 ， 再 用 来 拟 合 X_test 来 看 一 下 模型 的 得 分 。 输 入 代码 
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如 下 : 
# 用 最 佳 参数 模型 拟 合 数据 


lasso = Lasso (alpha=0.01, max iter=100) .ft (X train, у train) 
# 打 印 测试 数据 集 得 分 
print(” 测试 数据 集 得 分 : {:.3ҒЕ}'.Ғогтаі (1аззо.зсоге (Х test,y Тез!) )) 


运行 代码 ， 会 得 到 如 图 11-11 的 结果 。 


ТЕКА 


11-11 模型 在 测试 数据 集中 的 得 分 


【 结果 分 析 】 当 然 了 ，0.819 的 模型 得 分 是 比较 差强人意 的 。 不 过 这 并 不 是 参数 的 问 
题 ， 而 是 lasso 算法 会 对 样本 的 特征 进行 正则 化 ， 导 致 一 些 特 征 的 系数 变 成 0， 也 就 是 说 
会 抛弃 一 些 特征 值 。 对 于 酒 的 数据 集 来 说 ， 本 和 喘 特征 数量 并 不 多 ， 因 此 使 用 lasso 来 进行 
分 类 的 话 ， 得 分 是 会 相对 低 一 些 。 

接 下 来 要 告诉 大 家 一 个 好 消息 ， 那 就 是 在 scikit-learn 中 ， 内 置 了 一 个 类 ， 称 为 
GridSearchCV， 有 了 这 个 类 ， 我 们 进行 参数 调 优 的 过 程 就 会 稍微 简单 一 些 。 比 如 上 面 这 
个 例子 ， 我 们 用 GridSearchCV 再 来 实验 一 下 ， 输 入 代码 如 下 : 

# 导 入 网 格 搜索 工具 


from sklearn.model selection import GridSearchCV 
# 将 需要 遍历 的 参数 定义 为 字典 
рагаша = | alphna OU UL то, OCT 
"тах iter':[100,1000,5000,10000]} 
# 定 义 网 格 搜索 中 使 用 的 模型 和 参数 
grid search = GridSearchCV (lasso,params,cv=6) 
# 使 用 网 格 搜索 模型 拟 合 数据 
grid зеагсһ.һі (х іёгаіп, у train) 
# 打 印 结果 
Printi ' 模 型 最 高 分 : {:.3f}'.format (grid зеагсһ.зсоге (Х test, у іезі))) 
print ( :最 优 参 数 : {}" .format (grid зеагсһ.резі params )) 


可 以 看 到 ， 使 用 GridSearchCV 写 出 的 代码 更 加 简洁， 运行 代码 ， 可 以 得 到 如 图 11-2 
所 示 的 结果 。 


arg- 中 全 1 


ЕТЪР. Паци: алеі, бвак іта: Ы} 


11-12 使 用 GridSearchCV 得 到 的 模型 评分 和 最 佳 参数 
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【 结果 分 析 】 我 们 可 以 看 到 使 用 GridSearchCV 得 到 的 结果 和 我 们 在 上 一 步 中 用 
cross_val_score 结合 网 格 搜索 得 到 的 结果 是 一 样 的 。 但 是 需要 说 明 的 是 ， 在 GridSearchCV 
中 ， 还 有 一 个 属性 称 为 best_score_ ， 这 个 属性 会 存储 模型 在 交叉 验证 中 所 得 的 最 高 分 ， 
而 不 是 在 测试 数据 集 上 的 得 分 ， 我 们 可 以 用 下 面 这 行 代 码 打 印 出 来 看 一 看 : 


# 打 印 网 格 搜索 中 的 best_score 属性 
printi" 交叉 验证 最 高 得 分 : {:.3f}'.format (grid search.best зсоге )) 


运行 代码 ， 可 以 得 到 如 图 11-13 所 示 的 结果 。 


11-13 网 格 搜索 中 的 best_score_ 属性 


【 结果 分 析 】 回 过 头 去 看 我 们 在 使 用 cross_val_score 进行 评分 的 步骤 ， 大 家 会 发 现 
这 里 的 分 数 和 cross_val_score 的 得 分 是 完全 一 致 的 。 这 说 明 ，GridSearchCV 本 身 就 是 将 
交叉 验证 和 网 格 搜索 封装 在 一 起 的 方法 。 这 样 的 话 ， 我 们 完全 可 以 采用 这 种 方法 ， 来 对 
参数 进行 调节 。 


GridSearchCV 虽然 是 个 非常 强悍 的 功能 ， 但 是 由 于 需要 反复 建 模 ， 因 此 所 需要 的 
计算 时 间 往 往 更 长 。 


11.3 ”分 类 模型 的 可 信 度 评估 


不 知道 读者 朋友 们 有 没有 这 样 的 经 历 , 就 是 有 时 候 你 的 女 朋 友 (或 者 男 朋 友 ) 会 问 你 

哎 ， 你 觉得 这 件 衣服 我 穿 好 看 不 ? 

一 般 来 说 ,如 果 你 是 一 个 耿直 的 孩子 , 那么 答案 可 能 是 “好 看 ”“ 不 好 看 ”, 还 有 “还 
可 以 ”。 

在 这 个 过 程 中 ， 其 实 你 在 大 脑 里 进行 了 一 个 分 类 的 过 程 ， 将 目标 数据 集 分 成 了 “好 
я” “不 好 看 ”和 “还 可 以 ”3 种 。 但 如 果 你 细 想 一 下 的 话 ，“ 还 可 以 ”其 实 是 一 个 非 
常 模棱两可 的 描述 。 假 如 “好 看 ”是 1，“ 不 好 看 ”是 0， 那么 “还 可 以 ”是 多 少 ? 0.8? 
或 是 0.7 ? 抑或 是 0.4 ? 

没 错 ， 这 就 是 我 们 想 和 大 家 研究 的 一 个 问题 。 虽 然 分 类 算法 的 目标 是 为 目标 数据 的 
预测 结果 是 离散 型 的 数值 ， 但 实际 上 算法 在 分 类 过 程 中 ， 会 认为 某 个 数据 点 有 “8096? 
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的 可 能 性 属于 分 类 1， 而 有 “20% ”的 可 能 性 属于 分 类 0， 那 么 在 最 终结 果 中 ， 模 型 会 依 
据 “ 可 能 性 比较 大 ”的 方式 来 分 配 分 类 标签 。 下 面 我 们 来 看 一 看 ， 在 机 器 学 习 中 ， 算 法 
是 如 何 对 这 种 分 类 的 可 能 性 进行 计算 的 。 


11.3.1 分 类 模型 中 的 预测 准确 率 


在 scikit-learn 中 ， 很 多 用 于 分 类 的 模型 都 有 一 个 predict_proba 功能 ， 这 个 功能 就 是 
用 于 计算 模型 在 对 数据 集 进行 分 类 时 ， 每 个 样本 属于 不 同 分 类 的 可 能 性 是 多 少 。 下 面 用 
实例 来 进行 展示 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 

# 导 入 数据 集 生成 工具 


from sklearn.datasets import make blobs 
# 导 入 国 图 工具 

import matplotlib-pyplot аз рії 

# 生 成 样本 数 为 200， 分 类 为 2， 标 准 差 为 5 的 数据 集 


X, y=make Б1оБз (п samples=200, random state=1,centers=2,cluster std=5) 
# 绘 制 散 点 图 

plt.scatter(X[:,0],X[:,1],c=y, cmap=plt.cm.cool, еддесо1ог-"К") 

# 显 示 图 像 

plt.show () 


没 错 ， 我 们 又 使 用 了 make_blobs 来 制作 我 们 的 数据 集 ， 为 了 给 算法 增加 一 点 难度 ， 
我 们 故意 把 样本 数据 的 方差 设 高 一 些 ， 即 cluster_std=5。 运 行 代码 ， 会 得 到 如 图 11-14 所 
示 的 结果 。 


-25 -20 -15 -10 -5 0 5 10 
11-14 使 用 make_blobs 生成 的 实验 数据 集 


【 结果 分 析 】 从 图 11-14 中 ， 可 以 看 到 两 类 样本 在 中 间 有 一 些 重 合 ， 如 果 说 深 色 圆 
点 表示 “好 看 ”， 而 浅 色 圆 点 表示 “不 好 看 ”， 那 么 中 间 交 叉 的 部 分 就 有 点 像 我 们 所 说 
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第 11 章 ”模型 评估 与 优化 一 只 有 更 好 ， 没 有 有 最 好 


的 “还 可 以 ”。 下 面 我 们 使 用 高 斯 朴素 贝 叶 斯 来 进行 分 类 ， 输 入 代码 如 下 : 
# 导 入 高 斯 贝 叶 斯 模型 


from sklearn.naive bayes import GaussianNB 

# 将 数据 集 拆 分 为 训练 集 与 测试 集 

X train, X безі, у train, у test train test зр1ії (Х, у, гапаотњ state=60) 
# 训 练 高 斯 贝 叶 斯 模型 

gnb = GaussianNB () 

qnb- LE(X train, у train) 


# 获 得 高 斯 贝 叶 斯 的 分 类 准确 概率 
predict proba = gnb.predict proba (X test) 
# 打 印 结果 


Print(' 预 测 准确 率 形态 : {} .Еогшан (predict Proba.shape) ) 


从 代码 中 可 以 看 到 ， 模 型 预测 准确 率 是 存储 在 GaussianNB 的 predict_proba 属性 当中 
的 ， 运 行 代码 ， 可 以 看 到 这 个 属性 的 形态 如 图 11-15 所 示 。 


图 11-15 高 斯 贝 叶 斯 的 预测 准确 率 数据 形态 


【 结果 分 析 】 这 说 明 ， 在 predict_proba 属性 中 存储 了 50 个 数组 (也 就 是 测试 数据 集 
的 大 小 ) ， 每 个 数组 中 有 2 个 元 素 。 我 们 可 以 打印 一 下 前 5 个 看 看 是 什么 样子 。 输 入 代 
юш Е: 

# 打 印 准 确 概 率 的 前 5 个 

print (predict ргора [:5]) 


运行 代码 ， 会 得 到 如 图 11-16 所 示 的 结果 。 


в. Фл ьа | 
в. тові. | 
ё за тиі | 
в. іал | 


г алан A ачна] 


11-16 ”预测 准确 概率 的 前 5 个 数据 


【 结果 分 析 】 这 个 结果 反映 的 是 所 有 测试 集中 前 5 个 样本 的 分 类 准确 率 ， 例 如 第 一 
个 数据 点 ， 有 98.8% 的 概率 属于 第 一 个 分 类 ， 而 只 有 不 到 1.2% 的 概率 属于 第 二 个 分 类 ， 
所 以 模型 会 将 这 个 点 归于 第 一 个 分 类 当中 。 后 面 4 个 数据 点 的 道理 也 是 一 样 的 。 
我 们 可 以 用 图 像 更 直观 地 看 一 下 predict_proba 在 分 类 过 程 中 的 表现 ， 输 入 代码 如 下 : 


# 设 定 横 纵 轴 的 范围 
х min, х max = X[:, 0] .min() - .5, X[:, 0] .max() + .5 
у піп, у шах = Х[:, 1].min() - .5, X[:, 1].max() + .5 
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深入 浅 出 Python 机 gg 学 


хх, уу = np.meshgrid(np.arange(x тіп, x max, 0.2), 


# 用 不 同色 彩 表示 不 同 分 类 
пр.агапде (у тіп, у тах, 0.2)) 
2 = дпЬ.ргедсЕ proba (пр.с [хх.гауе1 (), уу.гате1() |) Г:, 1] 
Z = 2. гезһаре (хх. зһаре) 
# 绘 制 等 高 线 
plt.contourf (хх, уу, Z, cmap=plt.cm.summer, alpha=.8) 
# 绘 制 散 点 图 


plt.scatter (X train[:, 0], X train[:, 11, c=y train, cmap=plt.cm.cool, 
edgecolor="k") 

plt.scatter{X test[:, 0], X test[:, 1], с=у test, cmap=plt.cm.cool, 
edgecolor='k', alpha=0.6) 

# 设 置 横 纵 轴 范 围 

ріс: жізш(хи.лвіп(), хх.шах()) 

plt.ylim(yy.min(), уу.тах ()) 

# 设 置 横 纵 轴 的 单位 

PIC яо ЩО 

PETYEICKSLT 

# 显 示 图 像 

plt.show () 


运行 代码 ， 会 得 到 如 图 11-17 所 示 的 结果 。 


11-17 高 斯 朴素 贝 叶 斯 中 的 predict_proba 示意 图 


【 结果 分 析 】 从 图 11-17 中 可 以 看 到 ， 半 透明 的 深 色 圆 点 和 浅 色 圆 点 代表 的 是 测试 
集中 的 样本 数据 。 浅 色 区 域 代表 第 一 个 分 类 ， 而 深 色 部 分 代表 另 一 个 分 类 ， 在 两 个 区 域 
中 间 ， 有 一 部 分 渐变 色 的 区 域 ， 处 于 这 个 区 域 中 的 数据 点 便 是 模型 觉得 “还 可 以 ”的 那 
一 部 分 。 


并 不 是 每 个 分 类 算法 都 有 predict_proba 属性 ， 不 过 我 们 还 可 以 使 用 另外 一 种 方式 
来 检查 分 类 的 可 信和 度 ， 就 是 决定 系数 decision_function。 


11.3.2 分 类 模型 中 的 决定 系数 


同 了 预测 准确 率 类 似 ， 决 定 系 数 decision_function 也 会 给 我 们 返回 一 些 数值 ， 告 诉 我 
们 模型 认为 某 个 数据 点 处 于 某 个 分 类 的 “把 握 ” 有 多 大 。 不 同 的 是 ， 在 二 元 分 类 任务 
中 ， 它 只 返回 一 个 值 ， 如 果 是 正 数 ， 则 代表 该 数据 点 属于 分 类 1; 如 果 是 负数 ， 则 代表 
属于 分 类 2。 我 们 还 是 用 刚才 生成 的 数据 集 来 进行 实验 ， 不 过 由 于 高 斯 朴素 贝 叶 斯 没有 
decision_function Е, RATRE EN SVC 算法 来 进行 建 模 。 输 入 代码 如 下 : 

# 导 入 SVC 模 型 


from зКТеагп.зуш import SVC 

# 使 用 训练 集训 练 模型 

зус = ЗУС() .АС(Х train, у train) 

# 获 得 SVC 的 决定 系数 

dec func = svc.decision function(X test) 
# 打 印 决定 系数 中 的 前 5 个 


print (dec Еипс|:51) 


运行 代码 ， 会 得 到 如 图 11-18 所 示 的 结果 。 


Г 中 有 i 中 .中 FE .中 dj Ф ныла а лла ы. 


11-18 SVC 模型 决定 系数 的 前 5 个 


【 结果 分 析 】 从 这 个 结果 中 可 以 看 出 ， 在 5 个 数据 点 中 ， 有 4 个 decision_function 
数值 为 正 数 ，1 个 为 负数 。 这 说 明 decision_function 为 正 的 4 个 数据 点 属于 分 类 1， 而 
decision_function 为 负 的 那 1 个 数据 点 属于 分 类 2。 

接 下 来 我 们 也 可 以 用 图 形 化 的 方式 来 展示 decision_function 的 工作 原理 ， 输 入 代码 


如 下 : 
# 使 用 决定 系数 进行 绘图 


Z = Svc.decision function (np.c_[xx.ravel(), yy.ravel()]) 
Z = 2. гезһаре (xx.shape) 
# 绘 制 等 高 线 


plt.contourf (хх, уу, Z, cmap=plt.cm.summer, alpha=.8) 


plt.scatter (X train[:, 0], X train[:, 1], c=y train, cmap=plt.cm.cool, 
еадесо1ог='К') 

# 绘 制 散 点 图 

pltscatter{(lX Тез |:, 0], X Тез |:, 11, cy test, стар=рії.ст.соо1, 
еадесо1ог='К', а1рһа=0.6) 

# 设 置 横 纵 轴 范围 

plt-xlim(zx-mINn(}; о е И 

plt.ylim(yy.min(), уу.мах ()) 

# 设 置 图 题 


深入 浅 出 Python 机 器 学 习 


ріі.ііё1Іе('"5ҮС decision function") 
# 设 置 横 纵 轴 单 位 

е р ала бе! е- 人 

pit -yticks{{)} 

# 显 示 图 像 

PlLt.show() 


运行 代码 ， 会 得 到 如 图 11-19 所 示 的 结果 。 


11-19 SVC 的 decision_function 示意 图 


【 结果 分 析 】 对 比 图 11-19 和 图 11-17， 你 会 发 现 SVC 的 decision_function 和 
GaussianNB 的 predict_proba 有 相似 的 地 方 ， 但 也 有 很 大 的 差异 。 在 图 11-19 中 ， 分 类 同 
样 是 用 浅 色 和 深 色 区 域 来 表示 ， 如 果 某 个 数据 点 所 处 的 区 域 浅 色 越 明 显 ， 说 明 模型 越 确 
定 这 个 数据 点 属于 分 类 1， 反 之 则 属于 分 类 2， 而 那些 处 于 渐变 色 区 域 的 数据 点 ， 则 是 模 
型 觉得 “模棱两可 ”的 数据 点 ， 也 就 是 咱们 说 得 “还 可 以 ” 那 一 种 。 


在 本 例 中 ， 我 们 使 用 的 都 是 只 有 两 个 分 类 的 数据 集 ， 即 二 元 分 类 任务 ， 但 是 
predict_proba 和 decision_function 同样 适用 于 多 元 分 类 任务 ， 感 兴趣 的 读者 可 以 调整 
make_blobs 的 centers 参数 进行 实验 。 


11.4 ОМА 


在 本 章 中 ， 我 们 一 起 探讨 了 交叉 验证 法 、 网 格 搜索 法 ， 以 及 分 类 模型 的 可 信 度 评估 。 
这 些 方法 都 可 以 帮助 我 们 对 模型 进行 评估 并 且 找 到 相对 较 优 的 参数 。 还 要 多 介绍 一 点 知 
识 ， 那 就 是 我 们 一 直 使 用 的 score 给 模型 评分 的 方法 一 一 对 于 分 类 模型 来 说 ， 默 认 情 况 
下 .score 给 出 的 评分 是 模型 分 类 的 准确 率 Сассигасу) ， 而 对 于 回归 模型 来 说 ， 默 认 情 况 


下 .score 给 出 的 是 回归 分 析 中 的 А 分 数 ， 在 中 文 当 中 有 翻译 成 可 决 系数 ， 或 者 拟 合 优 度 。 
尺 分 数 的 计算 方法 是 用 “回归 平方 和 ”( explain sum of squares, ESS) 除 以 “总 变 差 ”(total 
sum of squares, TSS) ， 计 算 公 式 为 


当然 本 书 并 不 会 要 求 读 者 朋友 掌握 太 艰 汲 的 数学 公式 ， 这 里 也 仅 供 大 家 了 解 就 好 。 
实际 上 我 们 想 抛 出 另外 的 话题 一 一 除了 上 面 我 们 说 的 准确 率 和 А 分 数 ， 还 可 以 使 用 其 他 
的 方法 来 对 模型 进行 评分 ， 如 精度 (Precision) 、 召 回 率 (Recall) 、fl 分数 (fl-score) 、 
КОС (Receiver Operating Characteristic Curve) 、AUC (Area Under Curve) 。 在 实践 当 
H, 这儿 种 评分 方法 也 都 非常 党 用， 它们 与 网 格 搜索 法 经 常 配 合 在 一 起 使 用 。 限 于 篇 幅 ， 
我 们 在 这 里 不 展开 阐述 这 儿 种 评分 方法 的 计算 公式 ， 需 要 读者 朋友 了 解 的 是 ， 在 scikit- 
learn 中 ， 使 用 网 格 搜索 GridSearchCV 类 时 ， 如 果 要 改变 评分 的 方式 ， 只 需 修 改 scoring 
参数 即 可 。 例 如 ， 我 们 要 对 随机 森林 分 类 进行 评分 ， 我们 可 以 这 样 来 写 代 码 : 

# 修 改 scoring 参 数 为 roc_auc 


grid = GridSearchCV (RandomForestClassifier(), param grid = param grid, scoring 
= егос auc") 


这 样 模型 评分 的 方式 就 是 roc_auc 方式 了 。 

最 后 我 们 要 讲 的 是 ， 在 真实 世界 中 ， 大 部 分 数据 集 都 不 像 我 们 在 本 书 中 使 用 的 示例 
数据 集 那样 规范 , 因此 模型 评估 和 参数 调节 的 方法 可 能 是 数据 科学 家 们 必 备 的 知识 之 一 。 
而 不 同 的 方法 适合 于 不 同 的 数据 集 ， 所 以 首先 了 解 你 的 数据 集 才 是 至 关 重 要 的 。 


Ж 12 ж ”建立 算法 的 管道 模型 团结 就 是 力量 


理解 管道 模型 是 非常 简单 的 ， 我 们 可 以 想象 一 下 自己 身 处 一 个 汽车 制造 厂 中 ， 你 会 
发 现在 这 里 ， 汽 车 的 生产 过 程 是 在 一 个 流水 线 当 中 完成 的 一 一 有 些 设备 负 责 喷漆 ， 有 些 
设备 负责 把 零件 运输 到 下 一 个 环节 ， 有 些 设备 负责 安装 玻璃 ， 有 些 设备 负责 安装 座 椅 等 
直到 一 部 完整 的 车 辆 从 流水 线 中 成 功 驶 出 。 在 机 器 学 习 中 ,我 们 把 一 系列 算法 打包 在 一 起 ， 
让 它们 各 司 其 职 ， 形 成 一 个 流水 线 ， 这 就 是 我 们 所 说 的 管道 模型 。 

本 章 主 要 涉及 的 知识 点 有 : 

3 管道 模型 的 基本 概念 和 使 用 
使 用 管道 模型 进行 模型 选择 
使 用 管道 模型 进行 参数 调 优 
实例 : 使 用 管道 模型 对 股票 涨幅 进行 回归 分 析 


vy vy у 
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12.1 富 道 模型 的 概念 及 用 法 


本 节 主 要 和 读者 朋友 们 一 起 来 了 解 管道 模型 的 基本 概念 和 它 的 基本 用 法 ， 相 信 通 过 
本 节 的 学 习 ， 大 家 会 喜欢 上 这 个 能 够 让 我 们 的 若干 模型 完美 配合 的 功能 ， 或 者 更 加 严谨 
一 点 的 叫 法 一 一 scikit-learn 中 的 类 (class) 。 


12.1.1 管道 模型 的 基本 概念 


在 前 面 的 章节 中 ， 我 们 学 习 了 如 何 进 行 数据 的 预 处 理 ， 如 何 使 用 交叉 验证 对 模型 进 
行 评 估 ， 以 及 如 何 使 用 网 格 搜索 来 找到 模型 的 最 优 参数 。 假 如 我 们 要 用 茶 个 数据 集 进 行 
模型 训练 的 话 ， 大 概 的 做 法 会 像 下 面 这 样 。 

首先 ， 要 载 入 数据 集 ， 这 里 我 们 继续 使 用 make_blobs 来 生成 数据 集 ， 然 后 对 数据 集 
进行 预 处 理 〈 假 设 模 型 需要 ) ， 输 入 代码 如 下 : 

# 导 入 数据 集 生成 器 


from sklearn.datasets import make blobs 
# 导 入 数据 集 拆 分 工具 
from sklearn-model selection import train test split 
# 导 入 预 处 理工 具 
from sklearn.preprocessing import StandardScaler 
# 导 入 多 层 感知 器 神经 网 络 
from sklearn.neural network import MLPClassifier 
# 导 入 画图 工具 
ітрогі mätplotlib-pyplot аз pit 
# 生 成 样本 数量 200， 分 类 为 2， 标 准 差 为 5 的 数据 集 
X, у = make Б1оБз (п samples=200, сепіегз=2, cluster std=5) 
# 将 数据 集 拆 分 为 训练 集 和 测试 集 
xX сгатп, X test, у Crain, у test tran test зр1ії (Х, у, гапаот state=38) 
# 对 数据 进行 预 处 理 
scaler = StandardScaler () .fit (X train) 
X Егатп scaled = scaler.transform(X train) 
Х test scaled = scaler.transform(X test) 
# 将 处 理 后 的 数据 形态 进行 打印 
Peint: YN] 
print(' 代 码 运行 结果 : ') 
print ('================ NNN  ) 
print(' 训 练 集 数据 形态 : ', X train зса1еа. зһаре, 
' \n 测 试 集 数据 形态 : ', х test_scaled. shape) 
print('\n==============================") 
Print (yoan) 


在 这 段 代 码 中 ， 我 们 选择 使 用 МІР 多 层 感知 神经 网 络 作 为 下 一 步 要 用 的 分 类 器 模型 
(因为 МІР 是 典型 的 需要 进行 数据 预 处 理 的 算法 模型 ) ， 用 StandardScaler 作为 数据 预 
处 理 的 工具 ， 用 make_blobs 生成 样本 数量 为 200， 分 类 数 为 2， 标 准 差 为 5 的 数据 集 。 
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和 以 往 一 样 ， 我 们 用 train_test_split 工具 将 数据 集 拆 分 为 训练 集 与 测试 集 ， 运 行人 代码， 会 
得 到 如 图 12-1 所 示 的 结果 。 


"малта 


图 12-1 拆 分 好 的 训练 集 和 测试 集 


【 结果 分 析 】 从 结果 中 我 们 看 出 ， 训 练 集中 的 数据 样本 为 150 个 ， 而 测试 集中 的 样 
本 数量 为 50 个 ， 特 征 数 都 是 2 个 。 
下 面 我 们 来 看 一 下 未 经 预 处 理 的 训练 集 和 经 过 预 处 理 的 数据 差别 ， 输 入 代码 如 下 : 
# 原 始 的 训练 集 


pit. зса:тег (Х ёєгаіп[:,0], X +гаіп[:,1]) 

# 经 过 预 处 理 的 训练 集 

plt.scatter (Х train scaled[:,0], X train scaled[:,1|], шагКег-" 
edgecolor='k') 


A ' 


# 添 加 图 题 

plt.title('training set & scaled training set ) 
# 显 示 图 片 

plt.show() 


运行 代码 ， 将 会 得 到 如 图 12-2 所 示 的 结果 。 


15. чш 5 0 5 10 
图 12-2 预 处 理 前 后 的 训练 集 对 比 
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【 结果 分 析 ЈАР 12-2 中 可 以 看 到 , StandardScaler 将 训练 集 的 数据 变 得 更 加 “聚拢 ?， 
这 样 有 利于 我 们 使 用 神经 网 络 模型 进行 拟 合 。 
接 下 来 ， 我 们 要 用 到 前 面 所 学 到 的 网 格 搜索 来 确定 МІР 的 最 优 参数 ， 在 本 例 中 ， 我 
们 选择 的 参数 为 hidden_layer_sizes 和 alpha 这 两 个 来 进行 实验 。 输 入 代码 如 下 : 
# 导 入 网 格 搜索 


from sklearn.model selection import GridSearchCV 
# 设 定 网 格 搜索 的 模型 参数 字典 
params = | hiadden layer з3з12ез3":|(50,),(100,), (100,100)1, 
хапа" 10 0001, 0:001: 0.01. 0.11! 
# 建 立 网 格 搜索 模型 
grid = GridSearchCV (MLPClassifier (шах iter=1600, 
random state=38), param grid=params, cv=3) 
# 拟 合 数 据 
grid.fit (X train scaled, у train) 
# 将 结果 进行 打印 
ргіпі ( "\п\п\п') 
print(' 代 码 运行 结果 : ') 
print ( "一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 Nm  ) 
ргіпі ( ' 模 型 最 佳 得 分 : {: .2£f}" .format (grid.best зсоге )) 
Printi ' 模 型 最 佳 参 数 {}".format (grid.best рагашз )) 
print ('\n==============================") 
EPE ) 


在 这 段 代 码 中 ， 我 们 想 测试 的 是 МІР 的 隐藏 层 为 (50, ) , (100, ) Ж (100, 
100), ИХ alpha 值 为 0.0001，0.001，0.01 和 0.1 时 ， 哪 个 参数 的 组 合 可 以 让 模型 的 得 
分 最 高 ， 为 了 避免 让 模型 提示 最 大 迭代 次 数 太 小 ， 我 们 把 max_iter 参数 设置 为 1600。 运 
行 代码 ， 会 得 到 如 图 12-3 所 示 的 结果 。 


в: 8- ем 
ВЪВ ЕН раі Вода layer sliri 


12-3 进行 网 格 搜 索 得 到 的 模型 最 佳 分 数 和 最 佳 参 数 


【 结果 分 析 】 从 结果 中 看 出 ， 当 alpha 参数 等 于 0.0001 时 ， 有 1 个 50 个 节点 的 隐藏 
层 ， 即 hidden_layer_sizes 参数 为 《50, ) 时 ， 模 型 评分 最 高 ， 为 0.85， 总 的 来 说 还 可 以 。 
那 我 们 下 一 步 可 以 高 高 兴 兴 地 去 拟 合 测试 集 了 吧 ! 于 是 我 们 输入 代码 如 下 : 
# 打 印 模型 在 测试 集中 的 得 分 


Print ( "\п\п\п') 
print(' 代 码 运行 结果 : ') 
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printi" 测试 集 得 分 : ()".Еогшаг (дгіа.зсоге (Х test scaled, у іезі))) 
ргіпі ( "\п\п\п') 


运行 代码 ， 可 以 得 到 如 图 12-4 所 示 的 结果 。 
【 结果 分 析 】 测 试 集 上 模型 得 分 是 0.94, 好 像 很 不 错 ， 

那么 是 不 是 大 功 告 成 了 ? 等 一 下 ! 好 像 哪里 不 对 ? 

细心 的 读者 朋友 可 能 发 现 了 一 个 问题 ， 那 就 是 我 们 
在 进行 数据 预 处 理 的 时 候 ， 用 StandardScaler 拟 合 了 训练 12-4 ”模型 在 测试 集中 的 得 分 
数据 集 X_train， 而 后 用 这 个 拟 合 的 scaler 去 分 别 转换 了 X_train 和 X_test， 这 一 步 没 有 问 
题 。 但 是 ， 我 们 在 进行 网 格 搜索 的 时 候 ， 是 用 了 X_train 来 拟 合 的 GrindSearchCV。 如 果 
大 家 还 记得 我 们 在 网 格 搜索 中 讲 的 内 容 的 话 ， 就 会 发 现 ， 在 这 一 步 中 ， 由 于 交叉 验证 是 
会 把 数据 集 分 成 若干 份 ， 然 后 依次 作为 训练 集 和 测试 集 给 模型 评分 ， 并 且 找 到 最 高 分 。 

那么 问题 就 来 了 ， 这 里 我 们 把 X_train_scaled 进行 了 拆 分 ， 那 么 拆 出 来 的 每 一 部 分 ， 
都 是 基于 X_train 本 身 对 于 StandardScaler 拟 合 后 再 对 自身 进行 转换 。 相 当 于 我 们 用 交叉 
验证 中 生成 的 测试 集 拟 合 了 StandardScaler 后 ， 再 用 这 个 scaler 转换 这 个 测试 集 目 身 ， 如 
图 12-5 所 示 。 


Cross validation 


Гараг 
Ето 
ФФ 


training folds validation fold test set 


Test set prediction 


Ети 


. 


training folds validation fold test set 


12-5 ”错误 的 预 处 理 方法 


在 图 12-5 中 可 以 看 到 ， 这 样 的 做 法 是 错误 的 。 我 们 在 交叉 验证 中 ， 将 训练 集 又 拆 
分 成 了 training fold 和 validation fold， 但 用 StandardScaler 进行 预 处 理 的 时 候 ， 是 使 用 
training fold 和 validation fold 一 起 进行 的 拟 合 。 这 样 一 来 ， 交 叉 验 证 的 得 分 就 是 不 准确 的 
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了 。 这 一 点 我 们 在 第 9 章 中 已经 详细 阅 述 过 。 

那 怎 么 办 呢 ? 由 于 我 们 想 测试 的 参数 组 合 有 3X4， 也 就 是 12 个 之 多 ， 难 道 我 们 要 
做 12 次 预 处 理 才 行 吗 ? ЖЪЖЖИ Г! 

不 要 担心 ， 我 们 这 里 就 为 大 家 讲解 如 何 使 用 管道 模型 〈Pipeline) 来 解决 这 个 问题 。 
首先 我 们 看 下 Pipeline 的 基本 用 法 ， 输 入 代码 如 下 : 

# 导 入 管道 模型 


from sklearn.pipeline import Pipeline 

# 建 立 包含 预 处 理 和 神经 网 络 的 管道 模型 

pipeline = Pipeline([('scaler',Standardscaler ()), 

('mlp',MLPClassifier (шах iter=1600, random state=38) ) |) 

# 用 管道 模型 对 训练 集 进 行 拟 合 

pipeline.fit (X train, у train) 

# 打 印 管道 模型 的 分 数 

print (' 使 用 管道 模型 的 MLP 模 型 评分 : {:.2f}'.format ( 
ріре1ііпе.зсоге (Х test, y teatyy) 


在 这 段 代 码 中 , 我 们 导入 了 scikit-learn 中 的 Pipeline 类 , 然后 在 这 条 “流水 线 ” 中 “ 安 
装 ” 了 两 个 “设备 ”， 一 个 是 用 来 进行 预 处 理 的 StandardScaler， 男 一 个 是 最 大 迭代 数 为 
1600 的 МІР 多 层 感知 神经 网 络 。 然 后 我 们 用 管道 模型 pipeline 来 拟 合 训练 数据 集 ， 并 对 
测试 集 进 行 评分 。 运 行 代码 ， 会 得 到 如 图 12-6 所 示 的 结果 。 


пак ваг мат - 


图 12-6 管道 模型 的 分 类 准确 率 得 分 


【 结果 分 析 】 从 图 12-6 中 看 到 ， 管 道 模型 在 测试 数据 集 的 得 分 达到 了 0.94， 和 之 前 
的 分 数 好 像 没 有 什么 差别 ， 这 是 因为 我 们 生成 的 数据 集中 的 数据 点 量 级 差别 并 不 大 ， 如 
果 是 来 自 真实 世界 的 数据 ， 那 么 得 分 的 差距 会 更 加 明显 。 接 下 来 我 们 会 介绍 如 何 使 用 管 
道 模 型 配合 网 格 搜索 来 寻找 最 佳 参数 组 合 。 


1212 ”使 用 管道 模型 进行 网 格 搜索 


刚刚 我 们 介绍 了 如 何 使 用 管道 模型 将 数据 预 处 理 和 模型 训练 打包 在 一 起 ， 下 面 来 
介绍 如 何 使 用 管道 模型 进行 网 格 搜索 。 我 们 继续 沿用 前 面 的 例子 ， 以 便 进 行 对 比 。 在 
Jupyter Notebook 中 输入 代码 如 下 : 

# 设 置 参数 字典 
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params = | "пр hidden layer sizes :[(20,)，(100,)，(100,100) ] ， 
"мір а1рһа': [0.0001, 0.001, 0.01, 0.11) 

# 将 管道 模型 加 入 网 格 搜索 

grid = GridSearchCV (pipeline, param grid=params, су-3) 

# 对 训练 集 进行 拟 合 

агіа.һё (х Erain, у Erain) 

# 打 印 模型 交叉 验证 分 数 、 最 储 参 数 和 测试 集 得 分 

print ("yonn") 

print (' 代 码 运行 结果 : ') 

print ( "三 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 N\D e) 

print(' 交 叉 验 证 最 高 分 :{ : .2f}' .format (grid.best _ score )) 

ргіпі ( '“ 模 型 最 优 参数 {}" .format (grid.best рагашз ) ) 

PEES 测试 集 得 分 ， {}" -format (дгіа.зсоге (Х test, у Тез?) )) 


ргіпЕ ("Хоуп") 


运行 代码 ， 会 得 到 如 图 12-7 所 示 的 结果 。 


ТТВ Е-е. 
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12-7 将 管道 模型 加 入 网 格 搜索 的 模型 评分 


【 结果 分 析 】 从 图 12-7 中 可 以 看 到 ， 管 道 模型 在 交叉 验证 集中 的 最 高 分 是 0.85， 而 

МІР 的 最 优 参数 是 alpha 等 于 0.0001， 而 hidden_layer_sizes 的 数值 为 《50，) 。 这 个 参 
数 下 测试 集 的 得 分 达到 了 0.94。 

在 上 面 这 段 代 码 中 ， 大 家 会 发 现 我 们 传 给 参数 params 的 方法 发 生 了 一 点 变化 ， 那 就 
是 我 们 在 hidden_layer_sizes 和 alpha 前 面 都 添加 了 пр 这 样 一 个 前 级 。 为 什么 要 这 样 
做 呢 ? 这 是 因为 pipeline 中 会 有 多 个 算法 ， 我 们 需要 让 pipeline 知道 这 个 参数 是 传 给 哪 一 
个 算法 的 。 比 如 在 本 例 中 ， 我 们 建立 的 管道 模型 pipeline 有 зсаег 也 有 mlp， 如 果 我 们 不 
用 前 级 进行 指定 的 话 ，pipeline 便 会 搞 不 清楚 参数 究竟 是 给 scaler 的 还 是 пр 的 ， 于 是 程 
序 就 会 报错 。 

通过 使 用 管道 模型 ， 我 们 改变 了 交叉 验证 的 方式 ， 如 图 12-8 所 示 。 

对 比 图 12-5 和 图 12-8， 我 们 可 以 看 到 ， 在 前 面 我 们 没有 使 用 pipeline 的 时 候 ， 
GridSearchCV 会 把 经 过 scaler 处 理 的 数据 拆 分 成 若干 个 训练 集 与 验证 集 。 而 使 用 了 
pipeline 之 后 ， 相 当 于 每 次 模型 会 先 拆 分 训练 集 和 验证 集 ， 然 后 单独 对 训练 集 和 验证 机 分 
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别 进行 预 处 理 , 再 由 网 格 搜索 寻找 最 优 参数 。 这 样 就 避免 了 我 们 在 前 文中 所 说 的 错误 操作 。 


Cross validation 


| MLP fit | MLP predict 
seater ft 
6% фФфффффФФ ХХ) 


training folds validation fold test set 


Test set prediction 


Er 
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training folds validation fold test set 
12-8 使 用 管道 模型 后 数据 预 处 理 的 方式 


GridSearchCyv 拆 分 的 训练 集 和 验证 集 ， 不 是 train_test_spilit 拆 分 的 训练 集 和 测试 
集 ， 而 是 在 train_test_split 拆 分 的 训练 集 上 再 进行 拆 分 ， 所 得 到 的 结果 。 


我 们 可 以 使 用 如 下 的 代码 来 透视 一 下 pipeline 所 进行 处 理 的 过 程 : 
# 打 印 管道 模型 中 的 步骤 


ргіпі ( "\п\п\п') 


pr 1пі ( ' =ssss Ш ) 
print (ріре1іпе.зіерѕ) 


ргіпі ( "\п\п\п') 


运行 代码 ， 会 得 到 如 图 12-9 所 示 的 结果 。 
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12-9 管道 模型 中 的 步骤 
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【 结果 分 析 】 从 图 12-9 的 结果 中 可 以 看 到 ，pipeline.steps 把 包含 在 管道 模型 中 的 数 
据 预 处 理 scaler 和 多 层 感知 神经 网 络 MLP 的 全 部 参数 返回 给 我 们 ， 这 就 如 同 是 流水 线 的 
工作 流程 一 样 。 从 这 个 结果 中 也 可 以 看 出 ， 在 GridsearchCV 进行 每 一 步 交 又 验 证 之 前 ， 
pipeline 都 会 对 训练 集 和 验证 集 进 行 StandardScaler 预 处 理 操作 。 

当然 ， 管 道 模型 不 仅仅 可 以 把 数据 预 处 理 和 模型 训练 集成 在 一 起 ， 它 还 可 以 将 很 多 
不 同 的 算法 打包 进来 。 接 下 来 我 们 和 大 家 一 起 ， 对 管道 模型 Pipeline 进行 更 多 的 探索 。 


12.2 使 用 管道 模型 对 股票 张 幅 进 行 回 归 分 析 


deni et ne 


АФН ЕНА, PEART- 下 数据 集 的 情况 。 


12.21 ”数据 集 准 备 


首先 ， 我 们 需要 一 个 股票 交易 软件 ， 如 果 你 在 某 个 证 券 交 易 公 司 开 过 户 ， 就 应 该 会 
有 该 公司 提供 的 软件 ， 如 果 没 有 开 过 户 ， 可 以 使 用 一 些 第 三 方 软件 ， 如 通达 信 、 同 花 顺 
或 者 大 智慧 一 类 的 软件 来 获取 股票 数据 ， 这 里 我 们 使 用 通达 信 的 软件 为 例 进行 展示 。 

打开 股票 交易 软件 ， 看 到 全 部 股票 的 信息 如 图 12-10 я. 
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图 | 12-10 ”股票 交易 软件 界面 
下 面 我 们 使 用 软件 自 带 的 数据 导出 功能 获得 股票 数据 ， 点 击 系统 菜单 ， 选 择 数据 导 


出 功能 ， 如 图 12-11 所 示 。 
单 击 “ 数 据 导出 ”按键 之 后 ， 


会 弹出 对 话 框 如 图 12-12 所 示 。 
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12-11 系统 菜单 中 的 数据 导出 
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在 图 12-12 的 对 话 框 中 ， 我 们 选择 导出 格式 为 Excel 文件 格式 ， 选 择 导出 报表 中 所 有 
数据 ， 然 后 修改 文件 保存 路 径 和 文件 名 ,， 单 击 导 出 按钮 ， 就 可 以 将 数据 导出 为 xls 文件 了 。 
数据 导出 之 后 ， 可 以 使 用 Excel 软件 打开 。 打 开 后 看 到 的 数据 如 图 12-13 和 图 12-14 


12-12 数据 导出 对 话 框 
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12-14 ”从 证 券 交 易 软 件 导 出 的 股票 数据 (二 ) 


12-13 和 图 12-14 中 展示 的 只 是 所 有 数据 中 的 一 部 分 ， 仅 作为 案例 演示 。 


观察 这 个 数据 集 ， 发 现 其 中 有 几 个 问题 。 

一 是 在 “ 细 分 行业 ”和 “地 区 ”这 两 列 全 部 都 是 字符 串 类 型 的 特征 。 当 然 我 们 可 以 
使 用 之 前 学 过 的 get_dummies 把 它们 转化 成 整 型 数值 ， 但 这 里 我 们 假定 这 两 个 特征 对 分 
析 结 果 影 响 不 大 ， 因 此 将 这 两 列 进行 删除 处 理 。 

二 是 我 们 看 到 在 “未 匹配 量 ” 这 一 列 中 ， 几 乎 全 部 都 是 “- -” 符 号 ， 表 示 无 效 数值 ， 
因此 这 一 列 我 们 也 进行 删除 处 理 。 

三 是 我 们 看 到 在 其 他 的 行 和 列 中 ， 和 零星 散 布 着 一 些 “- -” 符 号 ， 这 些 大 部 分 是 由 于 
当日 该 股票 处 于 停牌 状态 ， 因 此 相对 应 的 数值 缺失 。 所 以 我 们 把 这 些 “- -” 符 号 全 部 蔡 
换 为 0。 

另外 还 有 一 些 其 他 的 见 余 信息 ， 比 如 所 导出 的 数据 中 ， 包 含 数 据 来 源 信息 ， 这 些 也 
全 部 删 掉 。 在 这 些 工作 完成 之 后 ， 我 们 把 数据 集 保存 为 一 个 CSV 文件 ， 以 供 下 一 步 使 用 。 

接 下 来 ， 我 们 在 Jupyter Notebook 中 输入 代码 如 下 : 


# 导 入 pandas 

import pandas as pd 

# 记 得 把 文件 路 径 和 文件 名 替换 成 你 自己 的 

зіоскз = pd-read сзу('а:/зіоск dataset/stock дабазет10-20.сзу", 
encoding = "аБк") 

# 定 义 数据 集中 的 特征 x 和 目标 y 

X = stocks.1loc[:,' 现 价 ' : ' 流 通 股 ( 亿 ) "| .values 

у = Stocks[ "55 ' 1 

# 验 证 数据 集 形 态 
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ргіпі ( "\п\п\п') 
print(' 代 码 运行 结果 : ') 


print (X.shape, y.shape) 


ргіпі ( "\п\п\п') 


运行 代码 ， 会 得 到 如 图 12-15 所 示 的 结果 。 


зар гыт. ; 


图 12-15 打印 股票 数据 集中 的 特征 形态 和 目标 形态 


【 结果 分 析 】 从 图 12-15 中 看 到 数据 已 经 加 载 成 功 ， 数 据 集中 共有 3421 支 股票 ， 每 
文 股票 包含 23 个 特征 。 接 下 来 可 以 先 尝试 用 МІР 多 层 感知 神经 网 络 来 进行 回归 分 析 ， 
看 模型 的 表现 如 何 。 当 然 ， 这 里 还 是 使 用 交叉 验证 cross_val_score 来 进行 评分 的 工作 。 


# 导 入 交叉 验证 

from sklearn.model selection import cross val score 

# 导 入 MLP 神 经 网 络 

from sklearn.neural network import MLPRegressor 

# 使 用 交叉 验证 对 MLP 模 型 进行 评分 

scores = сгозз val score (МІРКедгеззог (random state=38) ,Х,у,су-3) 
# 打 印 评分 


和 下 
print(' 代 码 运行 结 果 : ') 


рг та Е ( а 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 ' ) 
print (' 模 型 平均 分 : {:.2f}'.format (зсогез.шеап ())) 
print ( 二 二 二 二 二 二 = 二 二 二 二 = 二 二 二 二 二 二 二 二 T ) 


ргіпі ( "\п\п\п') 


运行 代码 ， 我 们 会 得 到 一 个 让 人 揪心 的 结果 ， 如 图 12-16 所 示 。 


图 12-16 ”数据 未 经 预 处 理 时 的 模型 评分 
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【 结果 分 析 】 从 结果 中 看 出 ， 模 型 的 表现 实在 是 够 粳 糕 ， 得 分 居然 达到 -3000 多 万 。 
这 是 什么 原因 呢 ? 我 们 说 过 МІР 对 数据 预 处 理 的 要 求 很 高 ， 而 原始 数据 集中 各 个 特征 的 
数量 级 差 得 又 比较 远 ， 因 此 用 原始 数据 集 进 行 训练 ， 结 果 必 然 是 很 差 的 。 

所 以 接 下 来 我们 要 建立 一 个 管道 模型 ， 将 数据 预 处 理 和 МІР 模型 打包 进去 。 


12.2.2 ”建立 包含 预 处 理 和 MLP 模 型 的 管道 模型 


这 里 再 引入 一 个 知识 点 ， 在 sklearn 中 ， 可 以 使 用 make_pipeline 来 便捷 地 建立 管道 


模型 ， 大 家 看 下 面 的 代码 : 
# 导 入 make _ Pipeline 模块 


from sklearn.pipeline import make pipeline 
# 对 比 两 种 方法 的 语法 
pipeline = Pipeline([('scaler',SsStandardscaler ()), 
( mlLP ,MLPRegressor (random state=38) ) |) 
pipe = make pipeline(StandardScaler(), MLPRegressor (random State=38) ) 
# 打 印 两 种 建立 管道 模型 方法 的 步骤 
print (pipeline.steps) 
print ('\n',pipe.steps) 


从 这 段 代 码 中 ， 我 们 对 比 了 使 用 Pipeline 建立 管道 模型 和 使 用 make_pipeline 建立 管 
道 模 型 。 这 两 种 方法 的 结果 是 完全 一 样 的 。 但 是 make_pipeline 要 相对 更 简洁 一 些 。 我 们 
不 需要 在 make_pipeline 中 指定 每 个 步骤 的 名 称 ， 直 接 把 每 个 步骤 中 我 们 希望 用 到 的 功能 
模块 传 进去 就 可 以 了 。 运 行 代 码 ， 可 以 得 到 如 下 的 结果 : 


[('scaler', StandardScaler (copy=True, with mean=True, with std=True ) P 
( "м1р", МІРВедгеззог ( асътуатоп- "ге1ч", alpha=0 .0001, batch з1г2е-"ацго", 
pers 1=0.9, 
Бета 2=0.999, early зіорріпд=Еа1зе, ерз110п-1е-08, 
hidden layer sizes= (100, ) r learning rate= сопзёапі', 
learning rate іпії=0.001, шах іёег=200, momentum=0.9, 
пезіегоуз momentum=True, power t=0.5, random state=38, 
shuffle=True, 
зоТуег- "адаш", То1-0.0001, validation Ёгасііоп=0.1, уегБозе-Еа! зе, 
warm з аг!-Еа! зе) ) 1 


[ ( "зёапаагазса1ег', StandardScaler ( сору=Тгие, with пеап-Тгие, with 
std=True ) ), ( 'mlpregressor', MLPRegressor (activation='relu', alpha=0.0001, 
Datch з17ге-"апго", beta 1=0.9, 

beta 2-0.999, еаг1у зіорріпд=Еа1ізе, ерз110п-1е-08, 

hidden layer sizes= (100, ) , learning гаге-"сопзтапт", 

learning rate іпії=0.001, шах iter=200, momentum=0.9, 

nesterovs momentum=True, power і=0.5, random state=38, 
shuffle=True, 

зоТуег- "адаш", То1-0.0001, validation Ёгасііоп=0.1, уегБозе-Еа! зе, 

warm з аг!-Еа! зе) ) 1 


深入 浅 出 Python 机 器 学 习 


【 结果 分 析 】 结 果 癌 我 们 返回 了 两 种 方法 建立 的 管道 模型 中 的 步骤 ， 从 参数 上 看 ， 
两 种 方法 得 到 的 结果 是 完全 一 致 的 。 下 面 我 们 继续 符 试 用 交叉 验证 cross_val_score 来 给 
模型 评分 ， 这 次 输入 的 代码 如 下 : 
# 进 行 交 叉 验证 


scores = сгозз val зсоге (ріре, Х,у,су=3) 
# 打 印 交叉 验证 得 分 

Drintt nn] 

print (' 代码 运行 结果 : 


print (' 模 型 平均 分 : {:.2f}'.format (зсогез.теап())) 
рг Int | 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 一 二 一 一 一 т ) 


print ('\n\n\n') 

和 之 前 我 们 直接 使 用 МІР 多 层 感 知 神经 网 络 不 同 的 是 ， 这 次 我 们 用 来 进行 评分 的 
模型 是 刚刚 建立 好 的 管道 模型 pipe， 也 就 是 说 在 交叉 验证 中 ， 每 次 都 会 先 对 数据 集 进 行 
StandardScaler 预 处 理 ， 再 拟 合 МІР 回归 模型 。 然 后 看 看 这 次 结果 如 何 。 运 行 代码 ， 将 
会 得 到 如 图 12-17 所 示 的 结果 。 


图 12-17 建立 管道 模型 后 交叉 验证 的 得 分 


【 结果 分 析 】 虽 然 0.90 并 不 是 一 个 非常 高 的 得 分 ， 但 是 对 比 之 前 没有 经 过 预 处 理 
的 -3000 多 万 分 ， 可 以 说 模型 还 是 表现 得 有 如 天 壤 之 别 。 接 下 来 ， 我 们 会 继续 疝 管道 模 
型 中 添加 新 的 步骤 ， 并 介绍 如 何 调用 每 个 模块 中 的 属性 。 


12.23 回 管 道 模型 添加 特征 选择 步 双 


也 许 读 者 朋友 们 还 记得 我 们 在 之 前 的 章节 中 介绍 过 使 用 随机 森林 模型 对 股票 数据 集 
进行 特征 选择 。 下 面 我 们 尝试 使 用 pipeline 管道 模型 将 特征 选择 的 部 分 也 添加 进来 。 输 
入 代码 如 下 : 

# 导 入 特征 选择 模块 


from sklearn.feature selection import SelectFromModel 


# 导 入 随机 森林 模型 


from sklearn.ensemble import RandomForestRegressor 
# 建 立 管道 模型 


pipe = make pipeline (StandardScaler (), 
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беТестЕгошМоде1 (RandomForestRegressor (random state=38)), 
MLPRegressor (random state=38)) 
# 显 示 管 道 模 型 步骤 
pipe.steps 
这 里 我 们 把 SelectFromModel 这 个 步骤 也 添加 进 了 make_pipeline 中 ， 为 了 让 多 次 运 
行 的 结果 能 够 保持 一 致 ， 也 将 随机 森林 的 random_state 进行 指定 ， 我 们 这 里 指定 为 38， 
读者 朋友 可 以 目 己任 意 指 定 一 个 数字 ， 对 结果 的 影 啊 不 会 太 大 。 
运行 代码 ， 管 道 模型 pipeline 会 把 其 中 所有 的 步骤 反馈 如 下 : 
[('standardscaler', StandardScaler (copy=True, wich пеап-Тгие, ил. 
std=True ) ) ， 
( 'selectfrommodel', 
SelectFromModel (estimator=RandomForestRegressor (bootstrap=True， 
criterion='mse', max depth=None， 
max features="auto', max leaf nodes=None, 
min impurity decrease=0.0, min impurity split=None, 
min samples leaf=1, min samples split=2, 
min weight fraction leaf=0.0, п estimators=10, п јорз=1, 
oob score=False, random state=38, verbose=0, 
warm start=False ) Е 
norm огдег-1, prefit=False, threshold=None ) ) ， 
( 'mlpregressor', 
MLPRegressor (activation='relu', alpha=0.0001, batch size="auto', 
peta 1-0.9, 
beta 2-0.999, early stopping False, ерз110п-1е-08, 
hidden layer sizes= (100, ) ‚ learning габе-"сопзтапт", 
learning rate іпії=0.001, тах iter=200, momentum=0.9, 
nesterovs momentum=True, power t=0.5, random state=38, 
shuffle=True, 
solver- adam’, 1о1-0.0001, validation Ёгасііоп=0.1, 


verbose=False, 
warm start=False ) ) ] 


【 结果 分 析 】 读 者 朋友 们 可 以 从 结果 中 看 到 pipeline 中 每 个 步骤 所 使 用 的 模型 参数 ， 
这 里 不 再 展开 解释 。 下 面 就 使 用 交叉 验证 法 来 给 管道 模型 进行 评分 ， 输 入 代码 如 下 : 
# 使 用 交叉 验证 进行 评分 


scores = сгозз уа! Score (pipe, X,Y, cv=3) 
# 打 印 模型 分 数 

ргіпі ( "\п\п\п') 

print (' 代 码 运 行 结果 : ') 


рг ап ( з 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 2, 1 ) 
ргіпі (' 管道 模型 平均 分 : {:.2f}'.format (зсогез.пеап ())) 
Print ( z 一 工 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 Ц ) 


ргіпі ( "\п\п\п') 


运行 代码 ， 会 得 到 如 图 12-18 所 示 的 结果 。 


12-18 在 管道 模型 中 添加 特征 选择 的 模型 评分 


【 结果 分 析 】 对 比 之 前 没有 添加 特征 选择 的 管道 模型 ， 这 次 的 pipeline 得 分 为 0.89， 

分 数 再 一 次 有 了 显著 的 提升 。 当 然 ， 针 对 不 同 数据 集 ， 我 们 可 以 在 管道 模型 中 增加 更 多 
的 步 又， 以 便 提 高 模型 的 性 能 表现 。 

同样 地 , 我 们 还 可 以 提取 管道 模型 中 每 个 步骤 的 属性 , 例如 SelectFromModel 步骤 中 ， 
模型 选择 了 哪些 特征 ， 输 入 代码 如 下 : 

# 使 用 管道 模型 拟 合 数据 

pipe.fit (X, y) 

# 查 询 哪些 特征 被 选择 

mask = pipe.named steps["selectfrommodel"] де support () 


# 打 印 特 征 选择 的 结果 


print (mask) 

运行 代码 ， 我 们 会 得 到 如 下 的 结果 : 

[False True False True False False False False False False False False 

False True False True False False False False False False False| 

【 结果 分 析 】 从 结果 中 看 到 ，pipeline 可 以 把 管道 模型 中 特征 选择 SelectFromModel 

的 选择 结果 返回 给 我 们 。 这 里 SelectFromModel 只 选择 了 4 个 特征 ， 便 使 得 模型 的 效率 
有 了 显著 的 提高 。 

除了 进行 交叉 验证 之 外 ，pipeline 也 可 以 用 于 网 格 搜索 来 寻找 最 佳 模型 以 及 模型 最 佳 
参数 ， 下 一 节 中 我 们 将 和 读者 朋友 一 起 进行 研究 。 


12.3 ”使 用 管道 模型 进行 模型 选择 和 参数 调 优 


本 节 中 ， 我 们 会 和 大 家 一 起 探索 ， 如 何 使 用 管道 模型 选择 相对 更 好 的 算法 模型 ， 以 
及 找到 模型 中 更 优 的 参数 。 

12.3.1 使 用 管道 模型 进行 模型 选择 

这 部 分 内 容 主 要 讨论 的 是 ， 我 们 应 该 如 何 利 用 管道 模型 从 知 干 算 法 中 找到 适合 我 们 
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数据 集 的 算法 。 比 如 我 们 想 知道 ， 对 于 股票 数据 集 来 说 ， 是 使 用 随机 森林 算法 好 一 些 ， 
还 是 使 用 МІР 多 层 感知 神经 网 络 好 一 些 ， 就 可 以 利用 管道 模型 来 进行 对 比 。 有 趣 的 地 方 
在 于 ,我们 知道 МІР 需要 对 数据 进行 民 好 的 预 处 理 ， 而 随机 森林 并 不 需要 这 么 做 。 因 此 ， 
我 们 要 在 设置 好 管道 模型 的 参数 字典 ， 输 入 代码 如 下 : 
# 定 义 参 数字 典 
params = || "гед": [МІРКедгеззог (random зіёаёе=38) ], 
"зсаТег": [З5іапаагазса1ег () ,Мопеј] }, 
{ eg : [ КапаомЕогезіКедгеззог (random зтате-38) ] ， 
"зсаТег": | Мопе | ) | 
# 下 面 对 pipeline 进 行 实例 化 
pipe = Pipeline ([('scaler',StandardScaler ()), (" гед',МІРБКедгеззог ()) |) 
# 对 管道 模型 进行 网 格 搜索 


grid = GridSearchCV (pipe, params, су-3) 

# 拟 合 数据 

дг1а-.НЕ(Х,у) 

# 打 印 网 格 搜索 结果 

print ( ' 最 佳 模 型 是 . \n{}'.format (grid.best params )) 

print (' \n 模 型 最 佳 得 分 是 : { : .2f}' .format (grid.best score )) 


在 这 段 代码 中 , 我 们 定义 了 一 个 字典 的 列表 params, 作为 pipeline 的 参数 。 在 参数 中 ， 
我 们 指定 对 МІР 模型 使 用 StandardScaler， 而 RandomForest 不 使 用 StandardScaler， 所 以 
scaler 这 一 项 对 应 的 值 是 None。 运 行 代码 ， 会 得 到 如 下 的 结果 : 

最 佳 模 型 是 : 

{'reg': RandomForestRegressor (bootstrap=True, criterion='mse', max depth=None, 

пах Ёеаіцгез='аціо', тах leaf подез=Мопе, 
min impurity десгеазе-0.0, тіп impurity split=None, 
min samples leaf=1, min samples split=2, 
min weight fraction leaf=0.0, n estimators=10, n jobs=1, 
oob score=False, random state=38, verbose=0, warm start=False), 
"зса1ег': None} 


模型 最 佳 得 分 是 : 0.89 

【 结果 分 析 】 从 结果 中 可 以 看 到 ， 经 过 网 格 搜索 的 评估 ， 在 MLP 和 随机 森林 二 者 之 
间 ，MLP 神经 网 络 的 表现 要 更 好 一 些 。 其 模型 的 预测 准确 度 ， 也 就 是 尺 分 数 达到 了 0.89. 
这 还 是 在 我 们 没有 调整 参数 的 情况 下 。 下 面 ， 我 们 再 试 试用 网 格 搜索 和 管道 模型 进行 模 
型 选择 的 同时 ， 一 并 寻找 更 优 参数 。 


12.32 ”使 用 管道 模型 寻找 更 优 参数 


相信 现在 读者 朋友 们 都 已 经 掌握 了 如 何 用 网 格 搜索 来 进行 参数 调 优 ， 也 掌握 了 如 何 
使 用 管道 模型 进行 模型 选择 。 不 过 相信 大 家 会 有 一 个 新 的 问题 ， 在 上 一 个 例子 中 ， 我 们 
对 比 的 两 个 模型 使 用 的 基本 都 是 默认 参数 ,如 MLP 的 隐藏 层 ,我 们 使 用 的 是 缺 省 值 (100,)， 
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而 随机 和 森林 我 们 使 用 的 n_estimators 也 是 默认 的 10 个 。 那 如 果 我 们 修改 了 参数 ， 会 不 会 
MLP 的 表现 会 不 如 随机 森林 呢 ? 

就 让 我 们 带 厦 这 个 问题 ,一 起 来 进行 实验 。 我 们 可 以 通过 在 网 格 搜索 中 扩大 搜索 空间 ， 
将 需要 进行 对 比 的 模型 参数 ， 也 放 进 管道 模型 中 进行 对 比 。 现 在 我 们 输入 代码 如 下 : 

# 在 参数 字典 中 增加 MLP 隐 藏 层 和 随机 森林 中 estimator 数 量 的 选项 


params = || "геа": [МІРКедгеззог (random зтате-38) 1, 
"зсаТег": | 5СапдагЯЗсаТег () „Мопе|, 
eg hidden layer з172ез":|(50,),(100,), (100,100) ]}, 
{ "reg": |"КапдошЕогез Кедгеззог (random зіаіе=38) ], 
"зсаТег": [None], 
"reg п езіітаёогз"': |10,50,1001!1 
# 建 立 管道 模型 
pipe = Pipeline ([('scaler',StandardScaler ()), ('reg',MLPRegressor())]) 


# 建 立 网 格 搜索 

grid = GridSearchCV (pipe, params, су-3) 

# 拟 合 数据 

grid -HLX y} 

# 打 印 网 格 搜索 结果 

ргіпі ( ' 最 佳 模型 是 : \n{}' .format (grid.best params )) 

print (' \n 模 型 最 佳 得 分 是 : { : .2f}' .format (grid.best score )) 


从 这 段 代 码 可 以 看 到 ， 除 了 在 上 一 例 中 我 们 给 管道 模型 设置 的 参数 params 之 外 ， 这 
次 我 们 把 几 个 想 要 实验 的 参数 ， 也 包含 在 了 params 的 字典 当中 ， 一 个 是 MLP 的 隐藏 层 
数量 ， 我 们 传 入 一 个 列表 ， 分 别 是 〈50, ) , (100, ) 和 (100, 100) ; 另 一 个 是 随机 森 
林 的 n_estimators 数量 ， 分 别 是 10，50 和 100。 接 下 来 我 们 就 让 GridSearchCV 去 遍历 两 
个 模型 中 所 有 给 出 的 备 选 参数 ， 看 看 结果 会 有 什么 变化 。 运 行 代 码 ， 我 们 先 得 到 一 个 报 
警 信息 如 图 12-19 所 示 。 


1 
агч зр гаа. ра Зан d i мна рае a | rr (аа 
[HEj re не smi i ri md гаї he asm | oered рта. 

1 mel ае Uher, Came ута slg 》 


12-19 提示 最 大 运 代数 已 经 达到 的 报警 信息 


12-19 中 的 这 段 信息 是 提示 我 们 ， 在 МІР 中 ， 我 们 使 用 的 最 大 友 代 数 max_iter 参 
数 是 缺 省 值 200， 而 在 模型 拟 合 的 过 程 中 ，MLP 某 一 个 参数 的 设置 使 得 它 在 达到 最 大 和 迭 
代数 之 后 仍然 没有 实现 模型 优化 的 最 佳 收敛 程度 。 要 解决 这 个 问题 ， 只 要 我 们 把 max_ 
iter 的 数值 调 高 即 可 。 这 里 先 不 做 修改 ， 来 看 看 网 格 搜索 返回 的 结果 如 下 : 

最 佳 模型 是 : 

{'reg': MLPRegressor (activation='relu', а1рһа=0.0001, batch з12еашо", 

Бета 1-0.9, 


peta 2-0.999, eariy зГорр1па-Еа! зе, ерзі1оп=1е-08, 
hidden layer sizes= (50, ) r learning rate= constant’, 
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learning rate іпії=0.001, шах іёег=200, momentum 0.9, 
nesterovs momentum=True, power t=0.5, random state=38, shuffle=True, 
solver="'adam", tol=0.0001, validation fraction=0.1, verbose=False, 
warm start=False), "кед hidden Lever з1г2ез: (50,), "зса1ег": 
StandardScaler ( сору-Тгче, with пеап-Тгие, with std=True ) } 


模型 最 佳 得 分 是 : 0.92 

【 结果 分 析 】 和 我 们 在 前 面 所 预料 的 是 一 样 的 ， 在 多 给 出 几 个 参数 选项 之 后 ， 两 个 
模型 的 表现 出 现 了 逆转 。 上 面 的 结果 告诉 我 们 ， 这 次 的 网 格 搜索 发 现 ， 当 МІР 的 隐藏 层 
为 〈《50, ) 的 时 候 ，MLP 模型 的 评分 超过 了 随机 森林， 达到 了 0.92。 当 然 ， 如 果 继 续 多 
提供 一 些 参数 供 管道 模型 进行 选择 的 话 ， 如 让 随机 森林 的 n_estimators 数量 可 以 选择 500 
或 1000， 那 么 结果 可 能 还 会 出 现 反 转 。 下 面 我 们 实验 一 下 ， 输 入 代码 如 下 : 

# 再 次 给 出 新 的 参数 字典 


params = [{ "геа": [MLPRegressor (random state=38, тах іёег=1000) ], 
"зсаТег": [StandardScaler(),Nonel, 
"гея hidden layer 312ез":|(50,),(100,),(100,100)1), 
("геа" : |КапдошЕогез Кедгеззог (random state=38) ], 
"зсаТег": [None], 
"гед п езіітаіогз!': [100,500,1000]}] 
# 管 道 模 型 建立 
pipe = Ріре1іпе (| ('зса1ег', Зёапаагадса1ег ()), ("гед" „МЪРЕедгеззог () ) |) 
# 再 次 运行 网 格 搜索 
grid = GridSearchCV (pipe, params, су-3) 
grid HEX, y) 
# 打 印 结果 
print(' 最 佳 模型 是 : \n{}'.format (grid.best params )) 
printi" \n 模 型 最 佳 得 分 是 : { : .2f}' .format (grid.best score )) 


这 次 我 们 把 随机 森林 n_estimators 参数 的 选项 设置 为 100，500 和 1000， 随 便 把 MLP 
模型 的 max_iter 最 大 迭代 数 增加 到 1000， 以 避免 再 次 出 现 上 面 的 警告 信息 。 这 次 模型 拟 
合 的 时 间 会 相对 更 长 一 些 ， 毕 竟 n_estimors 达到 500 或 1000， 是 非常 消耗 计算 资源 的 。 

在 等 待 了 大 约 Imin， 网 格 搜索 回 我 们 返回 结果 如 下 : 

最 佳 模型 是 : 


("геа": MLPRegressor (activation='relu', а1рһа=0.0001, Datch з1ге-"ацго", 
beta 1=0.9, 

beta 2-0.999, early stopping False, ерз110п-1е-08, 

hidden layer sizes= (50, ) ‚ Теагптпа гаіе= ' сопзёапі", 

Іеагпіпд rate іпії=0.001, шах іёег=1000, тотепіцт=0.9, 

пезіегоуз momentum=True, power t=0.5, random state=38, shuffle=True, 

зоТуег- "адаш", tol=0.0001, validation Егаст1оп-0.1, verbose=False, 

warm start=False), "тед Nidden layer 31263.: (50, ), 'scaler': 

StandardScaler ( copy=True, with mean=True, with std=True ) } 


模型 最 佳 得 分 是 : 0.92 
【 结果 分 析 】 这 一 次 仍然 没有 出 现 我 们 所 期 符 的 剧情 反 转 ，MLP 模型 依旧 以 微弱 的 优 
势 保 持 领先 。 增 加 了 n_estimators 数量 的 随机 和 森林， 依然 没 能 实现 反超 。 这 说 明 对 于 我 们 
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使 用 的 这 个 数据 集 来 说 ， 隐 藏 层 为 50, ) 的 MLP 多 层 感 知 神经 网 络 ， 确 实 更 加 适合 一 些 。 


12.4 ОМА 


本 章 主 要 对 算法 的 管道 模型 进行 了 探讨 ， 在 经 过 实验 之 后 ， 相 信 大 家 对 于 管道 模型 
Pipeline 的 便捷 与 高 效 产生 了 深刻 的 印象 。 诚 然 ， 在 真实 世界 当中 ， 我 们 很 难 遇 到 只 用 一 
个 步骤 便 可 以 完成 模型 训练 的 数据 。 实 际 上 本 章 中 我 们 使 用 的 股票 数据 集 已 经 是 相对 简单 
的 数据 集 了 一 一 如 果 你 不 使 用 МІР 或 者 SVR 这 种 对 数据 预 处 理 要 求 较 高 的 模型 的 话 ， 还 
是 可 以 通过 简单 的 步骤 实现 模型 的 训练 〈 前 提 是 我 们 针对 当天 的 股票 涨幅 进行 回归 分 析 ) 。 

除了 能 够 将 更 多 的 算法 进行 整合 ， 实 现代 码 的 简洁 之 外 ， 管 道 模型 还 可 以 避免 我 们 
在 预 处 理 过 程 中 ， 使 用 不 当 的 方式 对 训练 集 和 验证 集 进行 错误 的 预 处 理 ， 正 如 在 12.1 小 
节 中 介绍 的 那样 。 通 过 使 用 管道 模型 ， 可 以 在 网 格 搜 索 每 次 拆 分 训练 集 与 验证 集 之 前 ， 
重新 对 训练 集 和 验证 集 进行 预 处 理 操作 ， 避 免 了 模型 在 训练 集中 得 分 很 高 ， 但 在 测试 集 
却 得 分 较 低 的 情况 出 现 。 

让 我 自己 都 觉得 非常 有 趣 的 是 ， 通 过 管道 模型 ， 打 包 了 数据 预 处 理 StandardScaler、 
特征 提取 SelectFromModel， 以 及 MLP 多 层 感 知 神经 网 络 ， 一 点 一 点 地 把 模型 从 最 初 
的 -3000 万 分 ， 提 高 到 0.92， 可 以 说 是 眼看 看 模型 一 步 一 步 在 成 长 ， 变 得 更 加 准确 ， 这 
个 过 程 无 疑 是 激动 人 心 的 。 

最 后 我 们 还 使 用 了 管道 模型 进行 了 模型 选择 和 参数 调 优 的 工作 ， 从 12.3 小 节 看 
到 ， 从 一 开始 网 格 搜索 给 随机 森林 模型 评 出 最 高 分 ， 到 最 后 通过 实验 ， 找 到 了 表现 更 加 
优异 的 隐藏 层 为 《50, ) 的 MLP 模型 ， 如 果 读 者 朋友 一 直 跟 随 我 们 的 进度 ， 在 Jupyter 
Notebook 中 用 代码 做 实验 ， 相 信也 会 非常 有 成 就 感 。 而 这 种 成 就 感 也 将 激励 大 家 在 机 器 
学 习 的 道路 上 进行 更 加 深入 的 探索 。 

之 所 以 这 里 讲 了 这 么 多 ,是 因为 到 本 章 为 止 , 我 们 已 经 把 scikit-learn 中 常见 的 算法 、 
功能 模块 和 相关 的 技巧 介绍 完了 了。 当然， 我 们 并 没有 把 所 有 的 内 容 完 全 进行 展示 。 实 际 
上 我 们 也 不 需要 这 样 做 一 一 在 scikit-learn 官网 有 完整 的 文档 供 大 家 阅读 ， 英 语 阅 读 能 
较 强 的 读者 朋友 可 以 随时 到 官网 上 得 询 各 个 模块 的 介绍 。 在 接 下 来 的 章节 中 ， 我 们 会 一 
起 研究 一 些 更 加 有 趣 而 且 适 用 的 技能 ， 也 是 当前 非常 火爆 的 一 个 机 器 学 习 的 方向 ， 目 然 
语言 处 理 NLP 的 基础 一 一 文本 数据 处 理 。 欢 迎 各 位 和 我 们 一 起 ， 继 续 机 器 学 习 的 旅程 。 


第 13 意 文本 数据 处 理 一 亲 ， 见 字 如 B 


一 直 以 来 ， 自 然 语言 处 理 ( Natural Language Processing, NLP ) 作为 人 工 智 能 的 重要 
分 支 之 一 ， 其 研究 的 内 容 是 如 何 实 现 人 与 计算 机 之 间 用 自然 语言 进行 有 效 的 通信 。 在 本 
章 中 ， 我 们 将 带领 大 家 学 习 自 然 语 言 处 理 中 的 基础 知识 一 如 何 对 文本 数据 进行 处 理 。 
本 章 主 要 涉及 的 知识 点 有 : 
文本 数据 的 特征 提取 
中 文 文本 的 分 词 方法 
用 n-Gram 模 型 优化 文本 数据 
使 用 tf-idf 模 型 改善 特征 提取 
删除 停 用 词 (Stopwords ) 


vy 


vy yy y vv 


13.1 文本 数据 的 特征 提取 、 中 文 分 误 及 词 安 模 型 


在 本 节 中 ,我 们 将 一 起 学 习 如 何 对 文本 数据 进行 特征 提取 , 如 何 对 中 文 进行 分 词 处 理 ， 
以 及 如 何 使 用 词 袋 模型 将 文本 特征 转化 为 数组 的 形式 ， 以 便于 将 文本 转化 为 机 器 可 以 “看 
懂 ” 的 数字 形式 。 


13.1.1 使 用 CountVectorizer 对 文本 进行 特征 提取 


在 前 面 的 章节 中 ， 我 们 用 来 展示 的 数据 特征 大 致 可 以 分 为 两 种 : 一 种 是 用 来 表示 数 
值 的 连续 特征 ; 另 一 种 是 表示 样本 所 在 分 类 的 类 型 特征 。 而 在 上 自然 语言 处 理 的 领域 中 ， 
我 们 会 接触 到 的 是 第 三 种 数据 类 型 一 一 文本 数据 。 举 个 例子 ， 假 如 我 们 想 知道 用 户 对 茶 
个 商品 的 评价 是 “好 ”还 是 “ 差 ”， 就 需要 使 用 用 户 评价 的 内 容 文本 对 模型 进行 训练 。 
例如 ， 用 户 评论 说 “ 刚 买 的 手机 总 是 死机 ， 太 糟糕 了 ! ”或 者 “新 买 的 衣服 很 漂亮 ， 老 
公 很 喜欢 。” 这 就 需要 我 们 提取 出 两 个 不 同 评论 中 的 关键 特征 ， 并 进行 标注 用 于 训练 机 
器 学 习 模 型 。 

文本 数据 在 计算 机 中 往往 被 存储 为 字符 串 类 型 〈String) ， 在 不 同 的 场景 中 ， 文 本 数 
据 的 长 度 差异 会 非常 大 ， 这 也 使 得 文本 数据 的 处 理 方式 与 数值 型 数据 的 处 理 方式 完全 不 
同 。 而 中 文 的 处 理 尤其 困难 , 因为 在 一 个 句子 当中 , 中文 的 词 与 词 之 间 没 有 边界 ,也 就 是 说 ， 
中 文 不 像 英 语 那 样 ， 在 每 个 词 之 间 有 空格 作为 分 界线 ， 这 就 要 求 我 们 在 处 理 中 文 文本 的 
时 候 ， 需 要 先进 行 分 词 处 理 。 

例如 这 人 句 英 语 : “Тһе quick brown fox jumps over а lazy dog”， 翻 成 中 文 是 “ 那 只 敏 
捷 的 标 色 狐狸 跳 过 了 一 只 懒惰 的 狗 ”。 这 两 句 话 在 处 理 中 非常 不 同 ， 我 们 来 看 下 面 的 代码 : 

# 导 入 向 量化 工具 countVectorizer 工 具 


from sklearn-feature extraction.text import CountVectorizer 
vect = CountVectorizer () 

# 使 用 CountVectorizer 拟 合 文本 数据 

еп = | "Тһе quick brown fox jumps over а lazy dog | 

vect .ft (еп) 

# 打 印 结果 

print (' iğ: {}'.format (len (vect .Vocabulary ))) 

ргіпі ( ' 分 词 : {}"' .format (vect .Vocabulary )) 


运行 代码 ， 会 得 到 如 图 13-1 所 示 的 结果 。 


Ж 13 章 “ 文 本 数据 处 理 一 一 条 ， 见 子 如 数 ” 


【 结果 分 析 】 可 能 读者 朋友 们 对 这 个 结果 会 感觉 到 有 点 奇怪 ， 明 明 这 人 句 话 当中 有 9 

个 单词 ， 为 什么 程序 告诉 我 们 单词 数 是 8 呢 ? 我 们 来 检查 一 下 分 词 的 结果 ， 原 来 程序 没 
有 将 冠 词 “a” 统 计 进 来 。 因 为 “a” 只 有 一 个 字母 ， 所 以 程序 没有 把 它 作 为 一 个 单词 。 
下 面 我 们 再 来 看 中 文 的 情况 ， 输 入 代码 如 下 : 

# 使 用 中 文 文本 进行 实验 

cn = [' 那 只 敏捷 的 棕色 狐狸 跳 过 了 一 只 懒 情 的 狗 '] 

# 拟 合 中 文 文本 数据 

уесъ „БЕ (сп) 

# 打 印 结果 


Prini. 单词 数 : {}" .format (len (vect .vocabulary ) ) ) 
print (' 分 词 : {}'.format (vect .Vocabulary )) 


运行 代码 ， 会 得 到 如 图 13-2 所 示 的 结果 。 


13-2 ”对 中 文 文本 进行 四 量化 的 结果 


【 结果 分 析 】 可 以 看 到 ,程序 无 法 对 中 文 语句 进行 分 词 ， 它 把 整 句 话 当成 了 一 个 词 ， 
这 是 因为 中 文 与 英语 不 同 , 英语 的 词 与 词 之 间 有 空格 作为 天 然 的 分 阳 符 ,而 中 文 却 没 有 。 
在 这 种 情况 下 ， 我 们 就 需要 使 用 专门 的 工具 来 对 中 文 进 行 分 词 。 目 前 市 面 上 有 几 天 用 于 
中 文 分 词 的 工具 ， 使 用 较 多 的 工具 之 一 是 “结巴 分 词 ”， 下 面 我 们 以 “结巴 分 词 ” 为 例 ， 
癌 大 家 介绍 一 下 中 文 的 分 词 方法 。 


13.1.2 ”使 用 分 词 工 具 对 中 文 文 本 进行 分 词 
首先 我 们 需要 安装 “结巴 分 词 ”， 以 管理 员 身 份 运 行 命令 提示 符 ， 键 入 命令 如 下 : 


pip install jieba 


稍 等 片刻 ，“ 结 巴 分 词 ” 的 安装 就 会 目 动 完成 。 接 下 来 我 们 使 用 “结巴 分 词 ” 来 对 
上 文中 的 中 文 语句 进行 分 词 。 输 入 代码 如 下 : 
# 导 入 结巴 分 词 


import jieba 

# 使 用 结巴 分 词 对 中 文 文本 进行 分 词 

cn = jieba.cut(' 那 只 敏捷 的 棕色 狐狸 跳 过 了 一 只 懒惰 的 狗 ' ) 
# 使 用 空格 作为 词 与 词 之 间 的 分 界线 

сп = |" '.јоіп(сп)] 

# 打 印 结果 


print (сп) 


运行 代码 ， 首 先 我 们 会 得 到 一 个 报警 ， 不 过 没有 关系 ， 这 是 “结巴 分 词 ” 导 入 预 置 
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的 词典 和 建立 模型 的 信息 ， 不 影响 程序 的 运行 ， 接 下 来 会 得 到 如 图 13-3 所 示 的 结果 。 


Esl Лу priis Bl ire Fe irali ДЫ лату . 
iasil nmin] ram 1 аса b Ролери jirba 1 ла Ва 
пай ад шалы] rs j tia 


һаг ады. 
ге а gici вел ева Ва И местен Ра р. 
гет ва П БЕ ЕЯ иа -n g П ЕГ] 


133 ”结巴 分 词 对 中 文 文本 分 词 的 结果 


借助 “结巴 分 词 ”， 我 们 把 这 人 句 中 文 语句 进行 了 分 词 操 作 ， 并 在 每 个 单词 之 间 插 入 
空格 作为 分 界线 。 下 面 我 们 重新 使 用 CountVectorizer 对 其 进行 特征 抽取 ， 输 入 代码 如 下 : 
# 使 用 CountVectorizer 对 中 文 文本 进行 向 量化 


уесъ. НЕ (сп) 


ргап г" 单词 数 : {} .format (len(vect -Vocabulary ))) 
Print( 分词: {} .format (vect .vocabulary )) 


运行 代码 ， 会 得 到 如 图 13-4 所 示 的 结果 。 


13-4 ”使 用 CountVectorizer 提取 出 的 特征 


【 结果 分 析 】 经 过 了 分 词 工具 的 处 理 ， 我 们 看 到 CountVecterizer 已 经 可 以 从 中 文 文 
本 中 提取 出 硅 干 个 整 型 数值 ， 并 且 生 成 了 一 个 字典 。 
接 下 来 ， 我 们 要 将 使 用 这 个 字典 将 文本 的 特征 表达 出 来 ， 以 便 可 以 用 来 训练 模型 。 


13.13 ”使 用 词 安 模型 将 文本 数据 苇 为 数组 


在 上 面 的 实验 中 ，CountVectorizer 给 每 个 词 编码 为 一 个 从 0 到 5 的 整 型 数 。 经 过 这 
样 的 处 理 之 后 ， 我 们 便 可 以 用 一 个 稀 玖 矩阵 (sparse matrix) 对 这 个 文本 数据 进行 表示 了 。 
输入 代码 如 下 : 

# 定 义 词 袋 模型 

Бад of words = vect.transform (cn) 


# 打 印 词 袋 模型 中 的 数据 特征 
print ( ' 转 化 为 词 袋 的 特征 : \n{}' .format (repr (рад of words))) 


运行 代码 ， 可 以 得 到 如 图 135 所 示 的 结果 。 


13-5 “转化 为 词 袋 模型 的 特征 
С 224 > 


第 13 章 “ 文 本 数据 处 理 一 条， 见 子 如 数 ” 
【 结果 分 析 】 从 结果 中 可 以 看 到 , 原来 的 那 句 话 , 被 转化 为 一 个 1 行 6 列 的 稀疏 和 矩阵， 
类 型 为 64 位 整 型 数值 ， 其 中 有 6 个 元 素 。 
下 面 我 们 看 看 6 个 元 素 都 是 什么 ， 输 入 代码 如 下 : 


# 打 印 词 袋 模型 的 密度 表达 
print" 词 袋 的 密度 表达 : \n{}'.format (Бад of words.toarray())) 


运行 代码 ， 会 得 到 如 图 13-6 所 示 的 结果 。 


13-6 词 袋 的 密度 表达 


【 结果 分 析 】 可 能 你 会 觉得 这 个 结果 有 点 让 人 费解 ， 它 的 意思 是 ， 在 这 一 句 话 中 ， 
我 们 通过 分 词 工 具 拆 分 出 的 6 个 单词 在 这 句 话 中 出 现 的 次 数 。 比 如 在 数组 中 的 第 一 个 元 
素 是 1， 它 代表 在 这 人 句 话 中 ，“ 一 只 ”这 个 词 出 现 的 次 数 是 1 次 ; 第 二 个 元 素 1， 代 表 这 
句 话 中 ，“ 懒 惰 ” 这 个 词 出 现 的 次 数 也 是 1。 

现在 我 们 可 以 试 着 换 一 句 话 来 看 看 结果 有 什么 不 同 ， 例 如 ，“ 懒 惰 的 狐狸 不 如 敏捷 
的 狐狸 敏捷 ， 敏 捷 的 狐狸 不 如 懒惰 的 狐狸 懒 情 ”。 输 入 代码 如 下 : 


# 输 入 新 的 中 文 文本 

сп 1 = jieba.cut(' 懒 情 的 狐狸 不 如 敏捷 的 狐狸 敏捷 , 敏捷 的 狐狸 不 如 懒 情 的 狐狸 懒惰 ' ) 
# 以 空格 进行 分 隔 

ста = Еос 

# 打 印 结果 


print (cn2) 


上 面 这 段 代码 主要 是 使 用 "结巴 分 词 将 刚才 我 们 编造 的 这 段 话 进行 分 词 。 运 行 代码 ， 
将 会 得 到 如 图 13-7 所 示 的 结果 。 


13-7 对 新 的 文本 进行 分 词 处 理 


接 下 来 ,我们 再 用 CountVectorizer 将 这 人 句 文 本 进行 转化 ， 输 入 代码 如 下 : 
# 建 立新 的 词 袋 模型 


new Бад = vect.transform(cn2) 

# 打 印 结果 

print (' 转 化 为 词 袋 的 特征 : \n{}'.format (repr (new bag) ) ) 
print (' 词 袋 的 密度 表达 : \n{}'.format (пем Бад .Тоаггау())) 


运行 代码 ， 会 得 到 如 图 13-8 所 示 的 结果 。 
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13-8 新 文本 的 词 袋 特征 和 密度 表达 


【 结果 分 析 】 同 样 还 是 1 行 6 列 的 矩阵 ， 不 过 存储 的 元 素 只 有 З 个 ， 而 数组 [033040]] 
的 意思 是 ，“ 一 只 ”这 个 词 出 现 的 次 数 是 0， 而 “懒惰 ”这 个 词 出 现 了 3 次 ，“ 和 人 敏捷?” 
这 个 词 出 现 了 3 次 ，“ 标 色 ” 这 个 词 出 现 了 0 词 ， “狐狸 ”这 个 词 出 现 了 4 次 ，“ 跳 过 ?” 
这 个 词 出 现 了 0 次 。 

上 面 这 种 用 数组 表示 一 句 话 中 ， 单 词 出 现 次 数 的 方法 ， 被 称 为 “ 词 袋 模型 ” (bag- 
of-words) 。 这 种 方法 是 忽略 一 个 文本 中 的 词 序 和 语法 ， 仅 仅 将 它 看 作 一 个 词 的 集合 。 这 
种 方法 对 于 目 然 语 言 进行 了 简化 ， 以 便于 机 器 可 以 读 取 并 且 进 行 模型 的 训练 。 但 是 词 袋 
模型 也 具有 一 定 的 局 限 性 ， 下 面 我 们 将 继续 介绍 对 于 文本 类 型 数据 的 进一步 优化 处 理 。 


13.2 ”对 文本 数据 进一步 进行 优化 处 理 


本 节 中 ， 我 们 将 和 大 家 一 起 学 习 如 何 使 用 п Стат 算法 来 改善 词 袋 模型 ， 以 及 如 何 
使 用 tf-idf 算法 对 文本 数据 进行 处 理 ， 和 如 何 删 除 文本 数据 中 的 停 用 词 。 


13.2.1 ”使 用 -Gram 改 善 词 袋 模型 


我 们 在 13.1 节 中 提 到 ， 虽 然 用 词 袋 模型 可 以 简化 自然 语言 ， 利 于 机 器 学 习 算 法 建 模 ， 
但 是 它 的 劣势 也 很 明显 一 一 由 于 词 袋 模型 把 句子 看 作 单词 的 简单 集合 ， 那 么 单词 出 现 的 
顺序 就 会 被 无 视 ， 这 样 一 来 可 能 会 导致 包含 同样 单词 ， 但 是 顺序 不 一 样 的 两 句 话 在 机 器 
看 来 成 了 完全 一 样 的 意思 。 

比如 下 面 这 句 话 : “道士 看 见 和 尚 亲吻 了 尼姑 的 嘴唇 ”， 我 们 用 词 袋 模型 来 将 这 人 名 
话 的 特征 进行 提取 ， 输 入 代码 如 下 : 

# 随 便 写 一 句 话 

joke = jieba.cut(' 道 士 看 见 和 尚 亲吻 了 尼姑 的 嘴唇 ') 

# 插 入 空格 

joke = |" '".join(joke)] 

# 转 化 为 向 量 

vect .fit (joke) 


Joke feature = уесі .ігапзЁогт (јЈоКе) 


# 打 印 文本 数据 特征 
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ргіпі (' 这 句 话 的 特征 表达 : \n{}'.format (joke feature.toarray ())) 


这 里 我 们 首先 用 “结巴 分 词 ” 对 这 人 句 话 进行 了 分 词 ， 然 后 使 用 CountVectorizer 将 其 
表达 为 数组 ， 运 行 代 码 ， 会 得 到 如 图 13-9 所 示 的 结果 。 


13-9 文本 数据 的 特征 表达 


接 下 来 ， 我 们 把 这 句 话 的 顺序 打 乱 ， 变 成 “尼姑 看 见 道士 的 嘴唇 亲吻 了 和 疝 ”， 再 
试 试看 结果 会 有 什么 不 同 ， 输 入 代码 如 下 : 


# 将 刚才 的 文本 打 乱 顺序 

јоке2 = jieba-cut(' 尼 姑 看 见 道士 的 嘴唇 亲吻 了 和 尚 ') 
# 插 入 空格 

ЗоКке2 = |" ".)о1п (јоке2) ] 

# 进 行 特征 提取 

okez feature = уесі.ігапзЁогљм (јоке2) 

# 打 印 文本 的 特征 


ргіпі (' 这 人 句 话 的 特征 表达 : \n{}'.format (ЗоКе2 Геабиге.Соаггау())) 


运行 代码 ， 会 得 到 如 图 13-10 所 示 的 结果 。 
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13-10 打 乱 顺序 后 的 文本 特征 


【 结果 分 析 】 和 上 面 的 结果 进行 对 比 的 话 ， 我 们 会 发 现 两 个 结果 是 完全 一 样 的 。 也 
就 是 说 ， 这 两 句 意 思 完 全 不 同 的 话 ， 对 于 机 器 来 讲 ， 意 思 是 一 模 一 样 的 ! 
要 解决 这 个 问题 ， 我 们 可 以 对 CountVectorizer 中 的 ngram_range 参数 进行 调节 。 这 
里 我 们 先 介 绍 一 下 ，n_Gram 是 大 词汇 连续 文本 或 语音 识别 中 常用 的 一 种 语言 模型 ， 它 是 
利用 上 下 文 相 邻 词 的 搭配 信息 来 进行 文本 数据 转换 的 ， 其 中 n 代表 一 个 整 型 数值 ， 例 如 
n 等 于 2 的 时 候 ， 模 型 称 为 bi-Gram， 意 思 是 л-Сгат 会 对 相 邻 的 两 个 单词 进行 配对 ; 而 
n 等 于 3 时 ， 模 型 成 为 tri-Gram， 也 就 是 会 对 相 邻 的 З 个 单词 进行 配对 。 下 面 我 们 来 演示 
如 何在 CountVectorize 中 调节 п-Стат 函数 ， 来 进行 词 袋 模型 的 优化 。 输 入 代码 如 下 : 


# 修 改 CountVectorizer 的 ngram 人 参数 

уесі = CountVectorizer (ngram гапде- (2,2)) 
# 重 新 进行 文本 数据 的 特征 提取 

су = vect.fit (joke) 

joke feature = cv.transform (joke) 


# 打 印 新 的 结果 
ргіп+ ( ' 调 整 n-Gram 人 参数 后 的 词典 : {}'.format (cv.get _ feature names ())) 
print(' 新 的 特征 表达 : {}'.format (joke _ feature.toarray() ) ) 


这 里 ， 我 们 将 CountVectorizer 的 ngram_range 参数 调节 为 (2，2) ， 意 思 是 进行 组 
合 的 单词 数量 的 下 限 是 2， 上 限 也 是 2。 也 就 是 说 ， 我 们 限制 CountVectorizer 将 句子 中 相 
邻 的 两 个 单词 进行 组 合 。 运 行 代码 ， 将 会 得 到 如 图 13-11 所 示 的 结果 。 


13-11 调整 л-Сгат 参数 后 的 数据 处 理 结果 


现在 再 来 试 试 男 外 一 句 “ 尼 姑 看 见 道 士 的 嘴 层 亲吻 了 和 尚 ”， 看 看 转化 的 特征 是 否 


有 了 变化 ， 输 入 代码 如 下 : 
# 调 整 文本 顺序 
joke2 = jieba.cut(' 尼 姑 看 见 道士 的 嘴唇 亲吻 了 和 尚 ' ) 
# 插 入 空格 
joke2 = |" ".join (јоке2) ] 
# 提 取 文 本 数据 特征 
јоКке2 feature = Vect.-. transfora(ijoke2) 
# 打 印 文 本 数据 特征 
рӯіпЕ (" 这 人 句 话 的 特征 表达 , \n{}"'.format (joke2 feature-toarray() ) ) 


运行 代码 ， 会 得 到 如 图 13-12 所 示 的 结果 。 


13-12 调整 顺序 后 的 文本 数据 特征 
【 结果 分 析 】 现 在 我 们 看 到 ， 在 调整 了 CountVectorizer 的 ngram_range 参数 之 后 ， 
机 器 不 再 认为 这 两 句 是 同一 个 意思 了 。 而 除了 使 用 n-Gram 模型 对 文本 特征 提取 进行 优 
化 之 外 ， 在 scikit-learn 中 ， 还 有 另外 一 种 使 用 tf-idf 模型 来 进行 文本 特征 提取 的 类 ， 称 为 
TfidfVectorizer。 下 面 我 们 简单 介绍 一 下 TfidfVectorizer。 


13.22 ”使 用 tf-idf 模 型 对 文本 数据 进行 处 理 


tf-idf 全 称 为 “term frequency-inverse document frequency”， 一 般 翻 译 为 “ 词 频 - 逆 
同文 件 频率 ”。 它 是 一 种 用 来 评估 茶 个 词 对 于 一 个 语料库 中 茶 一 份 文件 的 重要 程度 ， 如 
果菜 个 词 在 某 个 文件 中 出 现 的 次 数 非常 高 ， 但 在 其 他 文件 中 出 现 的 次 数 很 少 ， 那 么 tf-idf 
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就 会 认为 这 个 词 能 够 很 好 地 将 文件 进行 区 分 ， 重 要 程度 就 会 较 高 ， 反 之 则 认为 该 单词 的 
重要 程度 较 低 。 

下 面 我 们 来 看 一 下 tf-idf 的 公式 ， 请 大 家 简单 了 解 就 好 。 

首先 是 计算 萎 值 的 公式 : 

п., 
Ут 

AP: п ,表示 某 个 词 在 语料库 中 某 个 文件 内 出 现 的 次 数 ;，》 оп, ,表示 的 是 该 文件 中 所 有 
单词 出 现 的 次 数 之 和 。 

而 在 scikit-learn 中 ，idf 的 计算 公式 如 下 : 


| 
十 ] 
十] 


idf = Іо 
Е 


"+ 


AP: 义 代 表 的 是 语料库 中 文件 的 总 数 ， 人 代表 语料库 中 包含 上 述 单词 的 文件 数量 。 
那么 最 终 计 算 tf-idf 值 的 公式 就 是 : 
tf -idf = tf x idf 


зо) 读者 朋友 们 可 能 会 在 其 他 地 方 看 到 和 此 处 不 太一 样 的 公式 ， 不 要 觉得 奇怪 ， 这 
是 因为 tf-idf 的 计算 公式 本 身 就 有 很 多 种 变 体 ， 如 果 读 者 朋友 感 兴趣 的 话 ， 可 以 自己 用 
Google 搜索 一 下 看 看 它 有 多 少 种 变 体 。 


在 scikit-learn 当中 ， 有 两 个 类 使 用 了 tf-idf 方法 ， 其 中 一 个 是 TfidfTransformer， 它 
用 来 将 CountVectorizer 从 文本 中 提取 的 特征 矩阵 进行 转化 ， 男 一 个 是 TfidfVectorizer， 
它 和 CountVecterizer 的 用 法 是 相同 的 人 简单 理解 的 话 ， 它 相当 于 把 CountVectorizer 和 
TfidfTransformer 所 做 的 工作 整合 在 了 一 起 。 

为 了 进一步 介绍 TfidfVectorizer 的 用 法 ， 以 及 它 和 CountVectorizer 的 区 别 ， 我 们 下 
面 使 用 一 个 相对 复杂 的 数据 集 ， 也 是 一 个 非常 经 典 的 用 于 进行 自然 语言 处 理 的 案例 ， 就 
是 IMDB 电影 评论 数据 集 。 这 个 数据 集 是 由 斯 坦 福 大 学 的 研究 人 员 创 建 的 ， 包 括 100 000 
条 IMDB 网 站 用 户 对 于 不 同 电 影 的 评论 ， 每 条 评论 被 标注 为 “正面 ” (Positive) 或 者 “ 负 
H” (Negtive) 两 种 类 型 。 如 果 用 户 在 IMDB 网 站 上 给 某 个 电影 的 评分 大 于 或 等 于 6， 
那么 他 的 评论 将 被 标注 为 “正面 ”， 否 则 被 标注 为 “负面 ”。 

值得 称赞 的 是 , 创建 者 已 经 将 数据 集 拆 分 成 了 训练 集 和 测试 集 , 分别 有 25 000 条 数据 ， 
并 且 放 在 了 不 同 的 文件 夹 中 ， 正 面 评 论 放 在 “pos” 文 件 夹 中 ， 而 负面 评论 放 在 了 “neg” 


深入 浅 出 Python 机 器 学 习 


文件 夹 中 ， 还 有 50000 条 没有 进行 分 类 的 数据 集 ， 可 以 供 我 们 进行 无 监督 学 习 的 实验 。 
可 以 看 出 创建 者 在 制作 这 个 数据 集 时 ， 颇 费 了 一 番 心 思 。 唯 一 美中不足 的 是 ， 这 个 数据 
集中 全 部 是 英文 文本 ， 对 我 们 学 习 中 文 目 然 语言 处 理 来 讲 ， 稍 有 不 足 ， 可 惜 目 前 还 没有 公 
开 的 质量 可 以 与 之 媲美 的 中 文 文本 数据 集 。 所 以 这 里 我 们 只 好 用 它 来 进行 演示 了 。 读 者 朋 
友 们 可 以 在 http://ai.stanford.edu/~amaas/data/sentiment/ 中 下 载 这 个 数据 集 来 进行 实验 。 

接 下 来 ， 我 们 使 用 Jupyter Notebook 载 入 IMDB 电影 评论 数据 集 ， 来 看 看 它 的 结构 ， 
输入 命令 如 下 : 


Itree ACLIMDB 


# 请 将 ac1Imqb 蔡 换 成 你 放置 数据 集 的 文件 夹 地 址 
运行 命令 ， 可 以 得 到 如 图 13-13 所 示 的 树 状 文件 夹 列 表 。 


Роза 和 158 
ТЫЯ ~ выма лын ыла 
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=- Üres 


13-13 IMDB 影评 数据 文件 结构 


【 结果 分 析 】 从 结果 中 ， 可 以 看 出 IMDB 影评 数据 集 解 压 后 是 存放 在 一 个 名 叫 
асПтаь 的 文件 中 ， 训 练 集 和 测试 集 分 别 保存 在 名 为 “train” 和 “test” 子 文件 夹 中 ， 每 
个 子 文 件 夹 下 还 有 存放 正面 评论 的 “pos” 文 件 夹 和 “neg” 文 件 夹 ， 而 “train” 文 件 夹 
下 还 有 一 个 “unsup” 的 子 文件 夹 ， 存 放 的 是 不 含 分 类 标注 的 用 于 进行 无 监督 学 习 的 数据 。 

为 了 能 够 减低 数据 载 入 的 时 间 ， 更 好 地 为 大 家 进行 展示 ， 我 们 从 train 和 test 文件 夹 
中 各 抽取 50 个 正面 评论 和 50 个 负面 评论 ， 保 存在 新 的 文件 夹 中 ， 命 名 为 Imdblite。 

下 面 我 们 使 用 scikit-learn 来 载 入 这 些 文本 数据 ， 输 入 代码 如 下 : 

# 导 入 文件 载 入 工具 


from sklearn.datasets import load files 
# 定 义 训练 数据 集 
train set = load files ('Imdblite/train') 
train, у Erain = Crain зес.даса, Erain sSet-target 
Вт E T нв 
print (' 训练 集 文件 数量 : {}' .format (len(X train))) 
# 随 便 抽取 一 条 影评 打印 出 来 
print (' 随 机 抽 一 个 看 看 :'， X train[22]) 


运行 代码 ， 会 得 到 如 图 13-14 所 示 的 结果 。 
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13-14 训练 集 文 件数 量 和 某 条 影评 内 容 


【 结果 分 析 】 由 于 我 们 各 从 pos 文件 夹 中 的 正面 评论 和 neg 文件 夹 的 负面 评论 中 抽 
取 了 50 个 样本 ， 因 此 整个 训练 集中 有 100 个 样本 。 通 过 打印 第 22 个 样本 ， 我 们 看 到 这 
段 影评 内 容 还 是 相当 丰富 的 ， 但 大 家 会 发 现在 评论 正文 中 ， 有 很 多 <br/> 的 符号 ， 这 是 
在 网 页 中 用 来 分 行 的 符号 。 为 了 不 让 它 影 响 机 器 学 习 的 模型 ， 我 们 把 它 用 空格 蔡 换 挥 ， 


输入 代码 如 下 : 
# 将 文本 中 的 <br/> 全 部 去 掉 
Х train = [doc.replace(b'<br />', b' ') for дос in X train] 
运行 这 行 代 码 之 后 , 再 打印 同一 条 影评 的 话 , 你 就 会 发 现 <br/> 全 部 被 空格 奉 换 掉 了 。 
感 兴趣 的 读者 朋友 可 以 目 己 测试 一 下 ,为 了 市 省 篇 幅 , 我 们 这 里 就 不 粘贴 结果 给 大 家 看 了 。 
接 下 来 ， 我 们 再 载 入 测试 集 ， 输 入 代码 如 下 : 
# 载 入 测试 集 


test = load files ('Imdblite/test/') 
X сезі. y гезс = Cest. Aala, 1ез1 -Савдей 


# 同 样 替换 掉 <br/> 
X test = |дос.гертасе(Ь"<Ъг />", Ь" ") for дос in X test] 


# 返 回 测试 数据 集 文件 数量 


Теп (Х Тез?) 


运行 代码 ， 会 看 到 程序 返回 给 我 们 测试 集 的 样本 数 100， 说 明 测 试 集 也 加 载 成 功 了 。 
同时 ， 我 们 也 把 测试 集中 的 <br/> 符号 蔡 换 完成 ， 可 以 进行 下 一 步 的 工作 了 。 
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下 面 要 对 文本 数据 进行 特征 提取 ， 首 先 使 用 前 面 学 到 的 CountVectorizer 来 进行 特征 
提取 ， 输 入 代码 如 下 : 


# 用 CountVectorizer 拟 合 训练 数据 

Vect = CountVectorizer() .fit (Х crain) 

# 将 文本 转化 为 向 量 

Х train уесі = уест.Сгапзтогш (Х train) 

# 打 印 训练 集 特征 数量 

print ( "训练 集 样 本 特征 数量 : {} -format (1еп (уесі.деі feature патез ()))) 

# 打 印 最 后 10 个 训练 集 样本 特征 

Printi ' 最 后 10 个 训练 集 样本 特征 : {}'.Ғогтаі (уесі.деі feature патез () [-10:])) 


运行 代码 ， 会 得 到 如 图 13-15 所 示 的 结果 。 
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13-15 训练 集 的 特征 数量 和 最 后 10 个 特征 


【 结果 分 析 】 从 结果 中 可 以 看 到 ， 训 练 集 的 特征 数 高 达 近 4 000 个 ， 同 时 我 们 打印 
了 最 后 10 个 特征 名 称 ， 来 大 概 了 解 一 下 情况 。 下 面 我 们 就 使 用 一 个 有 监督 学 习 算 法 来 进 


行 交 又 验证 评分 ， 看 看 模型 是 否 能 较 好 地 拟 合 训练 集 数 据 ， 输 入 代码 如 下 : 
# 导 入 线性 svc 分 类 模型 


from sklearn.svm import Г1пеагзус 

# 导 入 交叉 验证 工具 

from sklearn.model selection import cross val score 

# 使 用 交叉 验证 对 模型 进行 评分 

scores = cross val зсоге (LInearSVve (), X train уесі, у train) 


# 打 印 交 叉 验证 平均 分 
printi :模型 平均 分 : {:.3f}'.format (зсогез .mean () ) ) 


这 里 我 们 使 用 了 LinearSVC 算法 来 进行 建 模 , 运行 代码 , 会 得 到 如 图 13-16 所 示 的 结果 。 


13-16 训练 数据 集 的 模型 交叉 验证 平均 分 


【 结果 分 析 】 从 结果 中 看 出 ， 模 型 的 平均 得 分 是 0.778， 虽 然 不 是 很 低 ， 但 仍然 有 些 
差 吕 人 意 。 那 如 果 泛 化 到 测试 集会 怎么 样 呢 ? 我 们 用 下 面 的 代码 来 实验 一 下 。 
# 把 测试 数据 集 转 化 为 向 量 


X езі уесі = уесі.ігапзЁогтю(Х CESE) 
# 使 用 线性 svc 拟 合 训练 数据 集 
clf = LinearSVC() .fit(X train vect, у train) 


# 打 印 测 试 数 据 集 得 分 


С 232 > 


第 13 章 文本 数据 处 理 一 亲 ， 9 了 各 数 " 


print ( ' 测 试 集 模型 得 分 . (format (с1Е.зсоге (Х Cest уесі, у Cesty) 


运行 代码 ， 会 得 到 如 图 13-17 所 示 的 结果 。 


13-17 模型 在 测试 集 的 得 分 


【 结果 分 析 】 从 结果 中 看 到 ， 模 型 在 测试 集中 的 得 分 就 低 多 了 ， 仅 有 0.58， 说 明 有 
接近 一 半 的 样本 被 分 到 了 错误 的 分 类 中 。 
当然 这 很 大 一 部 分 原因 是 我 们 抽取 的 样本 较 少 ， 不 过 我 们 还 是 希望 能 稍微 提高 一 下 
模型 的 表现 ， 所 以 接 下 来 尝试 用 tf-idf 算法 来 处 理 一 下 数据 。 输 入 代码 如 下 : 
# 导 入 tfidf 转 化 工具 


from sklearn.feature extraction.text import TfidfTransformer 
# 用 tfidf 工 具 转 化 训练 集 和 测试 集 

tfidf = TfidfTransformer (smooth idf = False) 

tfidf .fit (х train vect) 

X train tfidf = tfidf.transform(X train vect) 

X test tfidf = tfidf.transform(X test vect) 

# 将 处 理 前 后 的 特征 打印 进行 比较 

printi” 未 经 tfidf 处 理 的 特征 : Уил X train уесі[:5,:5].їоаггау()) 
print (' 经 过 tfidf 处 理 的 特征 : \n',X train tfidf[:5,:5].toarray()) 


运行 代码 ， 会 得 到 如 图 13-18 所 示 的 结果 。 
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13-18 tf-idf 处 理 前 后 的 特征 对 比 


【 结果 分 析 】 由 于 训练 集中 的 样本 有 近 4000 个 特征 ， 我 们 只 打印 前 5 个 样本 
的 前 5 个 特征 就 好 了 。 从 结果 中 可 以 看 到 ， 在 未 经 TfidfIransformer 处 理 的 时 候 ， 
CountVectorizer 只 是 计算 某 个 词 在 该 样本 中 某 个 特征 出 现 的 次 数 ， 而 tf-idf 计算 的 是 词 频 
乘 以 逆 回 文档 频率 ， 所 以 是 一 个 浮 点 数 。 
现在 看 看 经 过 处 理 之 后 的 数据 集训 练 的 模型 评分 是 否 有 什么 变化 ， 输 入 代码 如 下 : 
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# 重 新 训练 线性 svc 模 型 

clf = LinearSVC () -ft(X train tfidf, у train) 

# 使 用 新 数据 进行 交叉 验证 

зсогез2 = cross val Score (LinearSVC (), X train tfidf, у train) 

# 打 印 新 的 分 数 进行 对 比 

Print(' 经 过 tf-idf 处 理 的 训练 集 交 叉 验 证 得 分 : {:.3f}'.format (зсогез.пеап ())) 

printi 经 过 tf-idf 处 理 的 测试 集 得 分 : {:.3f}'.format (clf.score (X test тва, 
y_test))) 


运行 代码 ， 将 会 得 到 如 图 13-19 所 示 的 结果 。 
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13-19 经 过 tf-idf 处 理 后 模型 的 得 分 


【 结果 分 析 】 看 起 来 模型 的 表现 并 没有 得 到 提升 ， 不 过 不 要 担心 ， 接 下 来 继续 尝试 
对 模型 进行 改进 ， 下 面 我 们 试看 去 挥 文本 中 的 “ 停 用 词 ”。 


“ 停 用 词 ” 的 英文 原文 是 Stopwords， 也 有 文献 称 为 “应 删除 词 ” 或 者 “停止 词 ”， 


意思 是 一 样 的 。 


13.23 ”删除 文本 中 的 停 用 词 


在 目 然 语 言 处 理 领 域 ， 有 一 个 概念 称 为 “ 停 用 词 ” (Stopwords) ， 指 的 是 那些 在 文 
本 处 理 过 程 中 被 得 除 出 去 的 ， 出 现 频率 很 高 但 又 没有 什么 实际 意义 的 词 ， 如 各 种 语气 词 、 
连词 、 介 词 等 。 目 前 并 没有 一 个 通用 的 定义 “ 停 用 词 ”的 规则 或 工具 ， 但 常见 的 方法 是 : 
统计 文本 数据 中 出 现 频率 过 高 的 词 然后 将 它们 作为 “ 售 用 词 ” 去 掉 ， 或 者 是 使 用 现 有 的 
停 用 词 表 。 

在 不 同 的 语言 中 ， 停 用 词 表 的 差异 也 非常 大 。 比 如 喘 语 中 常见 的 停 用 词 包 括 “above” 
“into”“also” 等 ， 而 中 文 常见 的 停 用 词 包 括 “ 啊 ”“ 上 哎呀”“ 即 便 ”“ 具 体 地 说 ”等 。 
感 兴趣 的 读者 可 以 尝试 在 网 上 搜索 “哈工大 停 用 词 词 库 ” “百度 停 用 词 表 ”等 资源 进行 
更 加 深入 的 了 解 。 在 我 们 所 使 用 的 scikit-learn 中 ， 也 内 置 了 英语 的 停 用 词 表 ， 其 中 包括 
常见 的 停 用 词 318 个 。 下 面 我 们 可 以 载 入 这 个 停 用 词 表 来 大 致 了 解 一 下 ， 输 入 代码 如 下 : 

# 导 入 内 置 的 停 用 词 库 


from sklearn.feature extraction.text import ENGLISH STOP WORDS 


# 打 印 停 用 词 个 数 


print (' 停 用 词 个 数 : ', len (ENGLISH STOP WORDS) ) 
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# 打 印 停 用 词 中 前 20 个 和 后 20 个 
print(' 列 出 前 20 个 和 最 后 20 个 : Ха", 1136 (ENGLISH STOP WORDS) [:20], 
list (ENGLISH STOP WORDS) |-20:1) 


运行 代码 ， 可 以 得 到 如 图 13-20 所 示 的 结果 。 


13-20 ” 停 用 词 个 数 及 前 后 各 20 个 


【 结果 分 析 】 从 结果 中 ， 我 们 可 以 看 到 ， 在 scikit-learn 中 ， 作 为 停 用 词 的 单词 包括 
“around” “ffty” “together” “un” “very” 等 ， 一 共 318 个 。 而 网 上 流传 比较 广泛 
的 中 文 停 用 词 表 基 本 都 超过 了 1000 个 。 不 知道 是 不 是 我 们 可 以 得 出 中 文 确实 比 喘 语 更 加 
复杂 的 结论 。 

接 下 来 答 试 在 精简 版 IMDB 影评 数据 集中 进行 停 用 词 的 删除 ， 看 是 否 可 以 提高 模型 
的 分 数 ， 输 入 代码 如 下 : 


# 导 入 Tfidf 模 型 

from sklearn.feature extraction.text import TfidfVectorizer 

# 激 活 英语 停 用 词 参数 

tfidf = TfidfVectorizer (smooth idf = False, stop words = 'english') 


# 拟 合 训练 数据 集 

спа. (х train) 

# 将 训练 数据 集 文 本 转化 为 向 量 

X train thdf = thdf.transform(X train) 

# 使 用 交叉 验证 进行 评分 

зсогезЗ = cross val score (LinearSVC(), X train tħdf, у train) 

cif Erain СПОРЕ y Erain) 

# 将 测试 数据 集 转化 为 向 量 

X test tfidf = tfidf.transform(X test) 

# 打 印 交 叉 验 证 评分 和 测试 集 评 分 

print (' 去 掉 停 用 词 后 训练 集 交叉 验证 平均 分 : {:.3f}'.format (зсогезЗ.шеап ())) 

printt. 去 掉 停 用 词 后 测试 集 模型 得 分 : |: .ЗЕ|" „Еогшас (с1Е.зсоге(Х test thdf, 
Y_test) ) ) 


在 这 段 代 码 中 ， 直 接 使 用 了 TfidfVectorizer 来 对 文本 数据 进行 特征 抽取 ， 这 和 使 用 
CountVectorizer 提取 特征 后 ， 再 用 TfidfTransformer 进行 转化 的 效果 基本 是 一 样 的 。 随 后 
我 们 通过 指定 TfidfVectorizer 的 stop_words 参数 ， 让 模型 将 文本 中 的 英语 停 用 词 去 掉 ， 
运行 代码 ， 会 得 到 如 图 13-21 所 示 的 结果 。 


С 235 > 


нат ИВ В, в сл 
13-21 去掉 停 用 词 之 后 的 交叉 验证 分 数 和 测试 集 分 数 


【 结果 分 析 】 从 结果 中 看 到 ， 去 掉 停 用 词 之 后 ， 模 型 的 得 分 有 了 显著 的 提高 。 这 说 
明 去 掉 停 用 词 确 实 可 以 让 机 器 学 习 模型 更 好 地 拟 合 文本 数据 ， 并 且 能 够 有 效 提 高 模型 的 
泛 化 能 力 。 


截至 本 书写 作 之 时 ，scikit-learn 中 并 没有 内 置 中 文 停 用 词 表 。 不 过 我 们 可 以 下 载 网 
上 的 中 文 停 用 词 表 ， 并 在 scikit-learn 中 自己 定义 一 个 停 用 词 的 字典 ， 来 实现 去 掉 中 文 文 
本 停 用 词 的 目的 。 


13.3 小 结 


文本 数据 处 理 就 介绍 到 这 里 ， 以 上 内 容 只 是 目 然 语 言 处 理 最 基础 的 知识 ， 如 果 读 者 
朋友 希望 在 这 个 领域 深入 研究 ， 建 议 试 一 试 另外 一 个 Python 工具 包 一 一 NLIK。 这 是 一 
个 在 目 然 语言 领域 最 常用 的 工具 之 一 , 是 由 宾夕法尼亚 大 学 的 研究 人 员 开 发 的 开源 项 目 。 
在 Python 中 安装 NLIK 包 也 非常 简单 ， 只 要 使 用 pip install пик 即 可 。 使 用 NLTK 同样 
可 以 实现 分 词 、 为 文本 加 注 标签 等 功能 ， 此 外 ， 还 可 以 进行 词 干 提取 (Stemming) 以 及 
词 干 还 原 (Lemmatization ) 等 进 阶 功能 。 

另外 , 读者 朋友 们 还 可 以 再 了 解 一 下 话题 建 模 (Topic Modeling) 和 文档 聚 类 (Document 
Clustering) 。 关 于 这 两 种 技术 所 使 用 的 模型 ， 可 以 简单 地 理解 成 是 一 种 文本 数据 的 降 维 
方法 ， 但 是 它 和 PCA RE NMF 算法 都 不 同 ， 而 是 男 外 一 种 被 称 为 “ 潜 狄 利克 雷 分 布 ” 
的 模型 (Latent Dirichlet Allocation, LDA) 。LDA 所 进行 的 所 谓 话 题 建 模 ， 这 里 “话题 ” 
二 学 的 意思 ， 并 不 是 咀 们 平时 所 说 的 话题 ， 而 是 指 机 器 对 数据 进行 分 析 后 ， 将 相似 的 文 
本 进行 聚 类 的 结果 。 

当然 , 目 然 语言 处 理 是 一 个 非常 博大 精深 的 领域 , 近年 来 随 看 神经 网 络 的 再 次 崛起 ， 
自然 语言 处 理 领 域 也 诞生 了 很 多 新 的 技术 和 应 用 ， 说 到 这 里 不 得 不 提 的 一 个 工具 就 是 
word2vec 库 ， 男 外 也 有 很 多 学 者 使 用 Tensorflow 建立 循环 神经 网 络 (RNN ) 在 该 领域 实 
现 了 重大 的 突破 。 如 果 有 读者 朋友 计划 在 这 一 领域 发 展 上 自己 的 职业 生涯 ， 可 以 阅读 目 然 
语言 处 理 相关 的 专业 书籍 和 论文 ， 并 且 根 据 相 关内 容 多 进行 实验 ， 相 信 一 定 可 以 从 中 受 
НЕ. 


在 前 面 的 章节 当中 ， 我 们 一 直 在 使 用 现成 的 数据 集 或 者 是 scikit-learn 自 带 的 数据 集 
生成 工具 来 进行 机 器 学 习 模 型 的 演示 ， 而 在 我 们 的 工作 当中 ， 有 很 多 时 候 没有 现成 的 数 
据 集 可 用 ， 必 须 想 办 法 自己 去 获取 数据 ， 本 章 我 们 一 起 研究 如 何 使 用 Python 进行 数据 的 
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爬 取 并 进行 分 析 。 


本 章 主 要 涉及 的 知识 点 有 : 
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使 用 BeautifulSoup 进 行 HTML 解析 

正则 表达 式 入 门 

使 用 潜在 犹 利克 雷 分 布 模型 进行 话题 提取 


深入 浅 出 Python 机 器 学 习 


14.1 SPERMINE 


在 我 们 的 日 常 工 作 中 ， 除 了 要 关注 具体 的 事务 之 外 ， 还 应 该 常常 关心 一 下 宏观 政策 
和 形势 ， 以 便 做 出 对 应 的 商业 决策 。 但 是 毕竟 人 每 天 的 时 间 和 精力 有 限 ， 不 可 能 靠 人 工 
去 进行 超大 规模 的 阅读 ， 因 此 我 们 需要 一 个 简单 的 程序 去 爬 取 有 用 的 信息 ， 也 就 是 我 们 
常 说 的 “爬虫 ”程序 。 


14.1.1 准备 Requests 库 和 User Agent 


在 Python 当中 ， 能 够 实现 爬虫 功能 的 库 有 者 干 个 ， 而 最 简单 最 容易 上 手 的 ， 要 数 
Requests 库 了 ， 首 先 我 们 要 安装 这 个 库 ， 先 以 管理 员 身 份 运行 命令 提示 符 ， 输 入 : 
pip install requests 


如 图 14-1 所 示 。 
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14-1 安装 requests РЕ 


图 14-1 中 画 框 的 地 方 就 是 我 们 要 输入 的 命令 ， 安 装 完成 后 会 出 现 图 14-1 中 所 显示 
的 Successfully installed requests – 2.18.4. Requests 库 是 一 个 常用 的 пир 请 求 库 ， 它 本 号 
就 是 用 Python 编写 的 。Requests 基于 urllib， 但 是 比 urllib 的 易 用 性 要 好 很 多 。 它 的 语法 
人 简单 易 履 ， 但 功能 一 点 也 不 弱 ， 可 以 说 不 绾 是 对 新 手 还 是 老手 ， 都 非常 友好 。 

在 Requests 库 安 装 完 成 之 后 ， 下 面 我 们 要 对 目标 网 站 进行 请 求 ， 不 过 在 此 之 前 ， 还 
需要 做 一 件 事 ， 那 就 是 搞 清楚 我 们 的 user agent。 

User agent 一 般 翻译 为 “用 户 代 理 ”， 它 的 作用 是 问 服务 器 “上 自 报 家 门 ”， 告 诉 服 务 
器 我 们 的 电脑 操作 系统 是 什么 ，CPU 的 类 型 是 什么 浏览 器 是 哪 一 球 ， 以 及 浏览 器 版 本 
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是 什么 。 为 什么 需要 这 个 user agent 呢 ? 因为 我 们 要 让 疏 虫 假装 是 一 个 正常 的 用 户 在 使 用 
浏览 器 对 目标 网 站 的 服务 器 发 出 请 求 ， 不 然 很 容易 被 人 识破 身份 。 对 于 有 些 网 站 ， 会 对 
用 户 的 user agent 进行 校 验 ， 如 果 没 有 的 话 ， 就 会 被 服务 器 拒 之 门 外 了 。 

要 想 知 道 自己 的 user agent， 方 法 也 有 很 多 ， 最 简单 的 方式 就 是 在 百度 中 搜索 “UA 
查询 ”， 如 图 14-2 所 示 。 


14-2 使 用 百度 搜索 “UA 查询 ” 


从 图 14-2 中 看 到 ， 在 百度 中 搜索 “UA 查询 ”可 以 得 到 大 约 300 多 万 个 结果 ， 我 们 
随便 点 开 一 个 结果 链接 来 看 一 下 ,比如 第 一 个 ,打开 链接 之 后 会 得 到 如 图 14-3 所 示 的 结果 。 
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14-3 查询 到 的 user agent 


深入 浅 出 Python ўа) 


【 结果 分 析 】 从 图 14-3 中 可 以 看 到 ， 我 们 的 浏览 器 是 Google 的 Chrome 浏览 器 ， 版 
本 是 62.0.3202.94， 演 染 引 擎 是 Webkit 537.36， 而 操作 系统 是 Windows 10。 现 在 我 们 把 


AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safar i/537.36' 


复制 下 来 ， 一 会 儿 会 用 到 。 


根据 读者 的 操作 系统 和 浏览 器 的 不 同 ， 你 查询 到 的 user agent 也 和 此 处 的 会 有 
一 定 的 差异 。 当 然 你 可 以 使 用 自己 的 user agent， 也 可 以 直接 使 用 我 们 这 里 的 user 
agent， 都 是 没有 问题 的 。 


14.12 ”确定 一 个 目标 网 站 并 分 析 其 结构 


在 经 过 了 上 面 的 准备 之 后 ， 我 们 可 以 开始 爬 取 第 一 个 网 站 了 。 前 文中 我 们 提 到 ， 要 
多 关心 宏观 政策 和 形势 , 那么 我 们 这 里 就 以 中 华人 民 共 和 国 中 央 人 民政 府 官网 作为 目标 ， 
候 取 一 下 最 新 的 政策 文件 。 首 先 我 们 先 打 开 中 华人 民 共 和 国 中 央 人 民政 府 官网 来 了 解 一 
下 它 的 结构 ， 在 浏览 器 地 址 栏 输入 : http://www.gov.cn， 打 开 网 页 如 图 14-4 所 示 。 

14-4 中 男方 框 的 地 方 ， 也 就 是 网 站 的 “政策 ”专栏 ， 是 我 们 最 感 兴趣 的 部 分 ， 下 
面 单 击 “ 政 策 ”， 打 开 相 应 页 面 ， 如 图 14-5 所 示 。 
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14-4 中 华人 民 共 和 国 中 央 人 民政 府 官网 14-5 ”中 华人 民 共 和 国 中 央 人 民政 府 官 网 的 政策 专栏 
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从 图 14-5 中 看 到 ，“ 政 策 ” 专 栏 的 地 址 是 http:/www.gov.cn/zhengce/index.htm， 而 
其 中 我 们 最 关心 的 是 “最 新 ”这 个 子 栏 目 ， 就 是 图 14-5 中 国 框 的 位 置 。 下 面 我 们 单 击 “最 
新 ”， 打 开 页 面 如 图 14-6 所 示 。 

在 图 14-6 中 可 以 看 到 ， 最 新 政策 栏目 的 地 址 是 : http://www.gov.cn/zhengce/zuixin. 
htm。 页面 显示 的 是 近期 国家 发 布 的 重要 政策 信息 , 下 面 我 们 选取 图 中 画 框 部 分 的 链接 “ 国 
务 院 办 公 厅 关于 创建 “中 国 制造 2025” 国 家 级 示范 区 的 通知 ”这 一 条 信息 ， 单 击 链接 ， 
我 们 会 打开 页 面 如 图 14-7 所 示 。 
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14-6 ”中 华人 民 共 和 国 中 央 人 民政 府 官网 的 14-7 中华 人民 共和 国 中 央 人 民政 府 官网 的 
最 新 政策 栏目 政策 文件 正文 页 面 


从 图 14-7 中 我 们 可 以 看 到 ， 该 条 政策 文件 页 面 的 链接 地 址 为 http://www.gov.cn/ 
zhengce/content/2017-11/23/content_5241727.htm 
这 条 地 址 我 们 要 复制 下 来 ， 一 会 儿 会 用 到 。 


14.13 ”进行 爬 取 并 保存 为 本 地 文件 


接 下 来 ， 我 们 要 用 上 面 这 条 政策 文件 的 页 面 来 进行 实验 ， 用 安装 好 的 Requests 库 来 请 


求 这 个 页 面 的 内 容 。 现在 打开 Jupyter notebook, 新 建 一 个 Python3 记事 本 ,并 输入 代码 如 下 : 
# 导 入 requests 库 


import requests 


# 指 定 我 们 的 User Agent 
user_agent = 'Мохі11а/5.0 (Windows NT 10.0; Win64; хб4)Х 
Арр1еМеЬКі 1/537 .36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safar i/537.36' 
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Пеадегз = | "Озег-Адепі" : изег Agent} 


在 这 段 代 码 中 ， 先 导入 了 requests 库 ， 并 且 使 用 之 前 查询 到 的 User Agent KHE ЛЕ 


虫 的 headers。 接 下 来 开始 使 用 requests 问 服 务 器 发 送 请 求 ， 输 入 代码 如 下 : 


#requests 库 用 来 发 送 请 求 的 语句 是 requests .可 et 
г = equests .get ("http://www.gov.cn/zhengce/content/2017-11/23/content 5241727. 
Һеш”, 

headers = Пеадегз) 


# 打 印 结果 


print (r.text) 


在 这 段 代 码 中 ， 使 用 requests.get 来 请 求 页 面 内 容 ， 后 面 页 面 的 链接 就 是 刚刚 我 们 看 
过 的 “国务 院 办 公 厅 关于 创建 “中 国 制造 2025” 国 家 级 示范 区 的 通知 ”这 条 文件 的 正文 
页 面 链接 。headers 参数 传 入 我 们 的 user agent 就 可 以 了 。 运 行 代码 ， 会 得 到 如 图 14-8 所 
示 的 结果 。 
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14-8 使 用 requests.get 获得 的 页 面 内 容 


【 结果 分 析 】 从 图 14-8 中 可 以 看 到 ，requests 得 到 了 一 个 html 文件 ， 但 其 中 本 来 应 
该 显示 中 文字 体 的 地 方 却 是 显示 乱码 〈 如 画 线 部 分 ) ， 这 是 什么 原因 呢 ? 
我 们 使 用 encoding 来 查询 一 下 requests 的 编码 方式 ， 输 入 代码 如 下 : 


ргіпіё ( "\п\п\п') 
print (' 代码 运行 结果 : 


# 使 用 .encoding 查 询 编码 方式 
prior (НН: ',r.encoding) 


ргіпі ( "\п\п\п') 

运行 代码 ， 将 会 得 到 如 图 14-9 所 示 的 结果 。 

从 图 14-9 中 可 以 看 到 ，requests 默认 的 编码 方式 是 ISO-8895-1， 我 们 回 过 头 看 一 下 
页 面 的 编码 方式 ， 在 上 一 个 运行 结果 中 找到 charset 的 部 分 ， 如 图 14-10 Рог. 
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14-9 гедиеѕіѕ 默认 的 编码 方式 14-10 政策 正文 页 面 编 码 方式 


【 结果 分 析 】 从 图 14-10 的 画 框 部 分 可 以 看 到 ,这 条 政策 的 正文 页 面 采用 的 是 “utf-8” 
的 编码 方式 ， 难 怪我 们 直接 打印 出 来 的 结果 会 出 现 乱码 呢 ! 


E3 理论 上 ，requests 库 可 以 根据 页 面 头 猜测 页 面 的 编码 方式 ， 但 它 猜 测 的 正确 率 并 
不 高 。 


下 面 我 们 就 调整 requests 的 编码 方式 ， 让 中 文 文本 可 以 正常 显示 。 输 入 代码 如 下 : 


# 修 改 encoding 为 utf-8 
г.епсойтпа = 'utf-8! 
# 重 新 打印 结果 


print (г.іехі) 


运行 代码 ， 将 会 得 到 如 图 14-11 所 示 的 结果 。 
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9 14-11 ”调整 encoding 之 后 的 中 文 文 本 显示 


【 结果 分 析 】 从 图 14-11 中 看 到 ， 经 过 修改 encoding 的 方式 ， 中 文 文本 已 经 可 以 正 
常 显 示 了 。 但 现在 的 问题 是 ， 这 个 页 面 夹杂 了 大 量 的 htm 语言 ， 给 我 们 的 阅读 造成 极 大 
的 不 便 。 为 了 能 够 让 页 面 更 加 清晰 易 读 ， 我 们 有 两 种 方式 : 一 是 将 这 个 页 面 保存 为 html 


文件 ， 这 样 就 可 以 用 浏览 器 打开 ， 从 而 清晰 地 阅读 其 中 的 内 容 ， 男 一 种 方法 是 使 用 html 
解析 器 ， 将 页 面 中 重要 的 内 容 抽取 出 来 ， 保 存 为 我 们 需要 的 任意 格式 的 文件 (如 CSV 
文件 ) 。 


下 面 先 来 介绍 第 一 种 方法 的 实现 ， 在 Jupyter Notebook 中 输入 代码 如 下 : 
# 指 定 保存 htm1l 文 件 的 路 径 、 文 件 名 和 编码 方式 


with open ('d:/crawler/requests.html','w',encoding = 'utf8') аз Е: 
# 将 文本 写 入 


f.write(r.text) 


运行 代码 之 后 ， 会 看 到 指定 的 路 径 下 产生 了 一 个 新 的 html 文件 ， 如 图 14-12 所 示 。 
双击 图 14-12 中 的 html 文件 ， 将 会 看 到 浏览 器 自动 弹出 并 打开 这 个 页 面 ， 如 图 
14-13 所 示 。 


14-12 保存 的 html 文件 14-13 保存 好 的 html 文件 


从 图 14-13 男 框 的 位 置 可 以 看 到 ， 页 面 已 经 保存 到 本 地 ， 并 且 可 以 正 第 阅读 。 
【 结果 分 析 】 当 然 ， 上 面 这 部 分 只 是 为 了 展示 requests 的 基本 用 法 ， 实 际 上 这 样 的 
和 候 取 并 没有 实际 的 意义 。 因 为 如 果 把 每 一 个 页 面 地 址 都 复制 下 来 ， 再 由 requests H47 E 
取 后 保存 到 本 地 进行 阅读 ， 并 没有 提高 我 们 的 工作 效率 ， 反 而 还 有 所 降低 。 所 以 接 下 来 ， 
我 们 要 换 一 种 方式 来 进行 爬 取 的 工作 。 


14.2 生 微 复杂 一 点 的 爬 取 


正如 前 面 所 说 ， 如 果 只 是 单独 朴 取 一 个 页 面 并 保存 ， 并 不 会 真正 提高 我 们 的 效率 。 
事实 上 ， 对 于 日 党 的 工作 场景 来 说 ， 我 们 可 能 更 硕 望 朴 取 的 结果 像 图 14-14 这 样 。 
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14-14 我们 期 望 的 爬 取 结果 


【 结果 分 析 】 图 14-14 展示 的 是 我 们 在 日 常 工作 中 更 希望 得 到 的 结果 ， 用 一 个 表格 
呈现 相关 政策 文件 的 发 文 单位 、 标 题 以 及 链接 。 这 样 可 以 大 致 浏览 一 下 有 没有 和 我 们 业 
务 相 关 的 政策 文件 ， 如 果 有 的 话 ， 再 单 击 链接 阅读 详细 内 容 。 而 且 这 样 也 便于 我 们 使 用 
邮件 或 IM 工具 进行 分 享 。 

接 下 来 ， 一 起 研究 如 何 将 爬 取 数据 并 保存 为 我 们 想 要 的 结果 。 


14.2.1 确定 目标 页 面 并 进行 分 析 


下 面 我 们 就 来 分 析 ， 看 对 哪些 页 和 面 进行 仆 取 可 以 达到 我 们 想 要 的 效果 。 大 家 还 记得 
在 上 一 节 中 打开 的 中 华人 民 共 和 国 中 央 人 民政 府 官网 的 “最 新 政策 ” 子 栏目 吗 ? 地 址 是 : 
http:/www.gov.cn/zhengce/zuixin.htm， 下 面 我 们 重新 回 到 这 个 页 面 ， 如 图 14-15 所 示 。 
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14-15 ”中 华人 民 共 和 国 中 央 人 民政 府 官网 的 “最 新 政策 ” 子 栏目 页 面 


从 图 14-15 中 可 以 看 到 ， 这 个 页 面 显示 的 是 最 新 发 布 的 政策 标题 ， 单 击 每 个 标题 即 
可 进入 该 条 政策 的 正文 页 面 ， 那 么 我 们 就 选取 这 个 页 面 作为 爬 取 的 对 象 。 下 面 来 分 析 一 
下 这 个 页 面 的 源 代码 ， 在 网 页 上 面 单 击 鼠 标 右 键 ， 在 弹出 的 菜单 中 单 击 “ 检 查 ” 这 一 项 ， 
如 图 14-16 所 示 。 
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在 单 击 “ 检 查 ” 之 后 ， 我 们 会 看 到 浏览 器 右 侧 出 现 一 个 新 的 窗口 ， 如 图 14-17 Тя. 
FE 
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14-17 目标 网 页 中 的 元 素 


从 图 14-17 中 可 以 看 到 ， 新 出 现 的 窗口 中 显示 的 是 该 网 页 的 元 素 ， 黑 色 方 框框 住 的 
位 置 ， 注 释 为 “要 闻 列 表 ”， 那 么 我 们 需要 有 息 取 的 内 容 应 该 就 存储 在 这 个 元 素 当 中 ， 下 
面 单 击 方 框 中 <u> 标签 左边 的 小 三 角 ， 可 以 展开 这 个 元 素 ， 如 图 14-18 Тя. 

【 结果 分 析 】 从 图 14-18 中 我 们 看 到 ， 展 开 <ul> 元 素 之 后 ， 它 的 下 一 级 是 若干 个 
<li> 元 素 ， 展 开 第 一 个 <li> 元 素 后 ， 我 们 可 以 看 到 一 个 <h4> 元 素 ， 继 续 展开 后 ， 出 现 
了 我 们 想 要 疏 取 的 政策 标题 和 链接 之 一 。 黑 色 方 框 中 便 是 我 们 想 要 的 内 容 。 
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图 14-18 展开 后 的 <ul> 元 素 


接 下 来 ,我 们 就 要 使 用 HIML 解析 器 来 获取 这 些 内 容 ,但 是 现在 又 有 了 一 个 新 的 问题 ， 
我 们 需要 让 HTML 解析 器 只 抓 取 标题 的 文本 和 对 应 的 链接 ， 而 不 希望 有 多 余 的 内 容 被 提 
取出 来 ， 所 以 接 下 来 ， 要 先 介 绍 一 下 “正则 表达 式 ”， 作 为 后 面 内 容 的 基础 。 


14.2.2 ”Python 中 的 正则 表达 式 


正则 表达 式 是 一 个 特殊 的 字符 序列 ， 它 能 帮助 你 方便 地 检查 一 个 字符 串 是 否 与 某 种 
模式 匹配 。 这 样 说 可 能 有 些 抽象 ， 所 以 接 下 来 还 是 用 几 个 例子 来 进行 讲解 。 在 Python 中 ， 
有 一 个 称 为 re 的 模块 能 够 提供 全 部 的 正则 表达 式 功 能 。 先 来 看 第 一 个 例子 ， 在 jupyter 
notebook 中 输入 代码 如 下 : 


深入 浅 出 Python 机 器 学 习 


result1 = re.match (pattern, ' 你 说 什么 都 是 对 的 23333 ) 
# 如 果 匹 配 成 功 ， 打 印 匹 配 的 内 容 
if Tesultl : 
print (гези1 51 .group()) 
# 否 则 打印 "匹配 失败 " 
else: 
print (' 匹 配 失 败 ' ) 
# 第 二 句 话 前 面 是 数字 ， 后 面 是 文本 
result2 = re.match (pattern, ' 23333 你 说 什么 都 是 对 的 ' ) 
# 如 果 匹 配 成 功 ， 则 打印 匹配 结果 
iF тези 12 
print (гези1 52 .дгочр ()) 
# 否 则 打印 "匹配 失败 " 
else: 
print (' 匹 配 失败 ') 
print ("\n==============================" ) 
ргіпі ( "\п\п\п') 


在 上 一 段 代 码 中 ， 我 们 首先 导入 ге 模块 ， 指 定 re 的 匹配 模式 为 : \d+， 意 思 是 匹配 
一 个 或 多 个 数字 ， 这 里 “\d+” 被 称 为 元 字符 ， 如 果 我 们 不 添加 “+” 的 话 ， 那 就 只 会 匹 
配 1 个 数字 。 
“\d+” 前 面 的 “r” 意思 是 不 要 对 “\ ”进行 转 义 一 一 我 们 知道 ,在 Python 中 ，“\” 
表示 转 义 符 ， 如 我 们 常用 的 “\n” 就 表示 换行 。 如 果 不 希 望 Python 对 ”进行 转 义 ， 
有 两 种 方法 ; 一 是 在 转 义 符 前 面 册 增加 一 个 斜 杠 “”， 如 “Wn”， 那 么 Python 就 不 会 
对 字符 进行 转 义 ; 另 一 种 方法 就 是 在 前 面 添加 “r”， 如 本 例 中 的 “r”\d+””。 


运行 上 面 的 代码 ， 会 得 到 如 图 14-19 所 示 的 结果 。 


14-19 ”使 用 re 模块 进行 匹配 的 结果 


【 结果 分 析 】 从 图 14-19 中 可 以 看 到 ， 由 于 我 们 指定 的 匹配 模式 是 从 开头 匹配 数字 ， 
所 以 第 一 句 话 “你 说 什么 都 是 对 的 23333” 无 法 匹配 到 结果 ， 程 序 打印 了 “匹配 失败 ”; 
而 第 二 句 “23333 你 说 什么 都 是 对 的 ”是 数字 开头 ， 所 以 匹配 成 功 ， 我 们 使 用 .group0 可 
以 获得 匹配 的 内 容 ， 因 此 程序 将 “23333” 打 印 了 出 来 。 

那 如 果 我 们 硕 望 不 管 数 字 是 在 开头 还 是 结尾 或 是 中 间 ， 都 能 够 匹配 到 它们 ， 应 该 怎 
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Ам? 这 样 的 话 ， 我 们 就 可 以 使 用 .search0 方法 ， 而 不 是 .match()， 如 下 面 这 段 代码 : 


# 用 . search () 来 进行 搜索 
result3 = re.search (pattern, ' 你 说 什么 23333 都 是 对 的 ') 
ргіпі ( "\п\п\п') 
print (' 代 码 运 行 结 果 : ') 
print ("==============================\nN'") 
# 如 果 匹 配 成 功 ， 打 印 结果 ， 否 则 打印 "匹配 失败 " 
I гезп113: 
print (result3.group()) 
else: 


print (' 匹配 失败 ') 
print ('\n\n\n') 
在 本 例 中 ， 我 们 把 数字 “23333” 挪 到 了 整 句 话 的 中 间 位 置 ， 然 后 使 用 .search0 来 进 
行 搜索 ， 运 行 代码 ， 会 得 到 如 图 14-20 所 示 的 结果 。 


14-20 ”使 用 .search(0 进行 搜索 的 结果 


【 结果 分 析 】 现 在 我 们 看 到 ， 即 使 数字 被 挪 到 了 整个 句子 的 中 间 位 置 ， 依 然 可 以 被 
搜索 出 来 。 
除 此 之 外 ，re 模块 还 提供 了 多 种 语法 可 以 实现 不 同 的 功能 ， 如 下 面 这 段 代 码 : 


ргіпі ( "\п\п\п') 
print(' 代 码 运行 结果 : ') 


PEINE NONANO") 
这 段 代 码 中 ， 我 们 使 用 split) 方法 将 数字 之 间 的 文本 拆 分 出 来 ， 运 行 代 码 ， 会 得 到 
如 图 14-21 所 示 的 结果 。 


14-21 ”使 用 split) 方法 拆 分 文本 
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【 结果 分 析 】 图 14-21 中 ， 我 们 把 整 句 话 中 夹杂 在 “你 说 双击 ”“ 都 是 对 的 ”和 “ 哈 
哈 ” 都 拆 分 了 出 来 。 

此 外 我 们 还 可 以 使 用 .findall0 语法 把 数字 全 部 提取 出 来 ， 如 下 面 这 段 代 码 ; 

print( Ynnn’) 

print (' 代码 运行 结果 : ') 

pr int( ”一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 Nn ) 

# 使 用 .findal1 找 到 全 部 数字 

print (re.findall (pattern, “你 说 双击 666 都 是 对 的 23333 哈 哈 ')) 

зни" 

print AS 


运行 代码 ， 可 以 得 到 如 图 14-22 所 示 的 结果 。 


14-22 ”使 用 .findall0 提取 出 全 部 数字 


【 结果 分 析 】 从 图 14-22 中 可 以 看 到 ， 使 用 .findall0 可 以 把 整 句 话 中 全 部 数字 提取 
出 来 。 当 然 ， 使 用 正则 表达 式 不 仅仅 可 以 匹配 数字 ， 还 可 以 使 用 其 他 的 元 字符 来 匹配 各 
种 各 样 的 内 容 。 

14-23 中 是 正则 表达 式 中 比较 常用 的 元 字符 列表 。 
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14-23 ”正则 表达 式 中 常用 的 元 字符 


当然 ，Python 中 的 正则 表达 式 语法 还 有 很 多 ， 这 里 我 们 就 不 一 一 展开 讲解 了 ， 上 面 
介绍 的 这 些 内 容 已 经 足以 完成 本 章 的 案例 演示 。 


С 250 > 


第 14 章 “从 数据 获取 到 话题 提取 “从 “研究 员 ”到 “段子 手 " 


14.2.3 ”使 用 BeautifulSoup 进 行 HITML 解析 


在 Python 中 , 有 两 个 常用 的 用 于 HTML 解析 的 库 , 分 别 是 “lxml” 和 “BeautifulSoup”， 
它们 都 可 以 从 HTML 文件 或 者 XML 文件 中 提取 各 种 类 型 的 数据 。 二 者 的 功能 没有 太 大 
的 区 别 ， 大 家 可 以 任意 选择 上 自己 喜欢 的 安装 使 用 即 可 。 这 里 我 们 使 用 BeautifulSoup 进行 
案例 讲解 ， 主 要 是 因为 BeautifulSoup 非常 容易 上 手 ， 而 且 名 字 也 很 好 听 。 


命令 提示 符 ， 输 入 命令 如 下 : 


pip install beautifulsoup4 
如 图 14-24 所 示 。 


本 aa 


14-24 ”安装 BeautifulSoup4 


14-24 中 黑 框 部 分 就 是 我 们 输入 的 命令 ， 按 下 回 车 键 后 稍 等 片刻 ，BeautifulSoup4 就 
会 目 动 下 载 完 成 并 安装 ， 当 出 现 图 14-24 中 “Successfully installed beautifulsoup4-4.6.0” 
的 提示 时 ， 说 明 BeautifulSoup 已 经 安装 成 功 。 

下 面 我 们 就 使 用 第 一 小 节 中 requests 库 爬 取 的 页 面 来 讲解 BeautifulSoup 的 使 用 方法 ， 
首先 在 Jupyter Notebook 中 输入 代码 如 下 : 


# 导 入 BeautifulSoup 

from bs4 import BeautifulSoup 

# 创 建 一 个 名 为 soup 的 对 象 

soup = BeautifulSoupl(r.text, 'lxml', from encoding="utf8") 
print (зоир) 


在 这 段 代 码 中 ， 我 们 首先 导入 BeautifulSoup， 然 后 创建 一 个 名 为 soup 的 对 象 ， 这 里 
我 们 指定 BeautifulSoup 使 用 lxml 作为 HTML 解析 器 ， 当 然 你 也 可 以 不 使 用 lxml， 而 是 
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深入 浅 出 Python 机 器 学 习 


用 Python 标准 库 中 的 HTML 解析 器 。 不 过 在 实际 应 用 中 ，lxml 解析 的 速度 会 比 Python 
标准 库 快 一 些 ， 所 以 这 里 我 们 使 用 lIxml 作为 BeautifulSoup 的 解析 器 。 


ESS 如 果 你 是 第 一 次 使 用 ， 那 么 需要 使 用 pip install xm 命令 安装 xm АЕ, АКЛ 
述 了 。 


运行 代码 ， 会 得 到 如 图 14-25 所 示 的 结果 。 
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14-25 ”使 用 requests ЛЕНО) 1 6 НО) BeautifulSoup 对 象 


【 结果 分 析 】 由 于 文件 很 长 ， 图 14-25 只 显示 了 其 中 一 部 分 ， 我 们 可 以 从 图 中 看 到 
文件 包含 若干 个 标签 (Tag) ， 每 个 标签 注 明 了 其 作用 。 例 如 ，<head> 标签 标注 出 这 部 
分 是 HIML 文件 的 头 部 ， 而 <title> 标签 表明 这 部 分 是 文件 的 标题 , 每 个 标签 以 反 斜 杠 “/” 
结束 ， 如 </title> 表示 标题 部 分 结束 。 
下 面 使 用 BeautifulSoup 将 title 进行 提取 ， 输 入 代码 如 下 : 


printi yanin") 
print (' 代 码 运 行 结果 : 


i bats ИНИНИ И 
HER. ' 标 签名 ' 即 可 提取 这 部 分 内 容 

print (soup.title) 
print('\n==============================" 
ргіпі ( "\п\п\п') 


运行 代码 ， 可 以 得 到 如 图 14-26 所 示 的 结果 。 
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14-26 ”使 用 BeautifulSoup 提取 的 页 面 标题 
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第 14 章 从 数据 获取 到 活 题 提取 从 “研究 员 ” 到 “段子 手 ” 


从 图 14-26 中 可 以 看 到 ，BeautifulSoup 将 页 面 标题 进行 了 提取 ， 但 提取 的 内 容 还 带 


着 标签 <title> 和 </title>， 我 们 希望 提取 的 结果 只 有 中 间 的 文字 ， 而 不 要 显示 标签 的 内 容 ， 
所 以 接 下 来 我 们 有 两 种 方法 可 以 使 用 ， 一 是 使 用 .string 来 提取 文字 部 分 ， 输 入 代码 如 下 : 


中 


~ 


printi" ynan") 
print(' 代 码 运行 结果 : ') 


# 使 用 . string 即 可 提取 这 部 分 内 容 中 的 文本 数据 
ргіпі (зоцр.ііё1Іе.зігіпа) 

print (NmD 王 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ) 
ргіпі ( "\п\п\п') 


运行 代码 ， 会 得 到 如 图 14-27 所 示 的 结果 。 


14-27 ”使 用 .string 提取 的 文本 数据 


另外 一 种 方法 ， 是 使 用 .get_text() 来 提取 文字 部 分 ， 输 入 代码 如 下 : 
printi" Хаман?) 

print('" 代 码 运行 结果 : ') 

ри am 

# 使 用 .get text () 也 可 提取 这 部 分 内 容 中 的 文本 数据 


print (soup-title-get text(})) 
ргіпі ("\п\п\п') 


运行 代码 ， 会 得 到 如 图 14-28 所 示 的 结果 。 


14-28 ”使 用 ре 1ех() 提取 的 文本 数据 


【 结果 分 析 】 对 比 图 14-27 和 图 14-28， 你 会 发 现 结果 是 完全 一 样 的 ， 在 实际 使 用 当 
我 们 用 .string 和 .get_text( 方法 都 是 可 以 的 。 
从 上 面 的 内 容 可 以 看 到 ， 使 用 BeautifulSoup 进行 HTML 文件 的 数据 提取 是 非常 容易 


的 ， 接 下 来 ， 我 们 试 试看 提取 正文 的 部 分 ， 首 先 我 们 再 来 检查 一 下 对 象 soup， 看 一 下 下 
文 存储 在 哪 一 个 标签 中 ， 如 图 14-29 所 示 。 
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六 


14-29 | 文件 中 正文 所 处 的 位 置 


从 图 14-29 中 我 们 可 以 看 到 ， 文 件 的 正文 部 分 存储 在 <p></p> 标签 中 ， 这 个 标签 在 
HTML 中 意 为 “段落 ”， 那 么 我 们 可 以 使 用 BeautifulSoup 来 提取 标签 <p> 中 的 内 容 ， 输 
入 代码 如 下 : 


在 这 段 代码 中 , 我 们 使 用 soup.p.string 来 提取 正文 内 容 , 运行 代码 ,会 得 到 如 图 14-30 
所 示 的 结果 。 


14-30 ”使 用 .p.string 提取 的 文本 数据 


这 里 我 们 会 发 现 ， 默 认 情 况 下 ，BeautifulSoup 只 提取 了 第 一 个 <p> 标签 中 的 内 容 ， 
这 当然 不 是 我 们 想 要 的 结果 。 所 以 我 们 要 使 用 BeautifulSoup 的 find_all 来 找到 所 有 <p> 
标签 中 的 内 容 ， 并 且 进 行 提取 ， 输 入 代码 如 下 : 


第 14 章 从 数据 获取 到 活 题 提 肥 从 “研究 员 到 “段子 手 ” 


运行 代码 ， 可 以 得 到 如 图 14-31 所 示 的 结果 。 
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14-31 ”使 用 find_all 找到 全 部 正文 内 容 


【 结果 分 析 】 由 于 文件 较 长 ， 图 14-31 只 显示 了 其 中 一 部 分 的 内 容 ， 现 在 我 们 看 到 ， 
使 用 .find_all Ср) 语法 可 以 找到 标签 为 <p> 的 全 部 内 容 。 
现在 我 们 已 经 掌握 如 何 从 HTML 文件 中 提取 文本 的 技能 ， 接 下 来 ， 我 们 要 学 习 如 何 


从 中 提取 链接 ， 还 是 让 我 们 回 到 soup 对 象 ， 找 到 其 中 包含 链接 的 部 分 来 进行 实验 ， 
如 图 14-32 所 示 。 
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14-32 ”文件 中 最 后 一 个 <a> 标签 中 的 链接 


在 图 14-32 中 可 以 看 到 ， 在 整个 HIML 文件 的 最 后 一 个 <a> 标签 中 ， 有 一 个 完整 的 


链接 ， 下 面 我 们 就 用 BeautifulSoup 将 这 个 链接 进行 提取 ， 输 入 代码 如 下 : 
# 找 到 倒数 第 一 个 <a> 标 签 
link = soup.find а11('а') [-1] 
ргіпі ( "\п\п\п') 
print ('BeautifulSoup 提 取 的 链接 : ') 


рг Int ( 1 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 Ха ) 
print (11пК.де | ( "рге")) 
рг INE ( я Еа т ) 


ргіпі ( "\п\п\п') 


在 这 段 代 码 中 ， 我 们 使 用 find_all( 来 寻找 所 有 的 <a> 标签 ， 然 后 用 [-1] 来 把 最 后 一 
个 标签 赋值 给 变量 link, 接 下 来 使 用 .get(' href ') 语 句 将 标签 中 的 链接 进行 提取 。 运 行 代码 ， 
将 得 到 如 图 14-33 所 示 的 结果 。 


С 255 2 


ВИТ f ua. pEr T ГВА Ф ПВО СИНИ: PE . де 


14-33 ”使 用 .get( һеғ') 提取 链接 
现在 , 我 们 已 经 掌握 了 如 何 使 用 BeautifulSoup 进行 HTML 文件 中 文本 及 链接 的 提取 ， 
接 下 来 ， 我 们 就 可 以 结合 前 面 所 学 的 内 容 ， 来 实现 我 们 想 要 的 效果 了 。 
14.24 ”对 目标 页 面 进行 候 取 并 保存 到 本 地 


回顾 一 下 我 们 在 14.2.1 节 中 确定 的 目标 页 面 ， 会 发 现 有 一 个 非常 有 意思 的 现象 ， 那 
就 是 我 们 要 疏 取 的 文件 标题 所 对 应 的 链接 中 ， 都 包含 一 个 单词 “content”， 这 给 我 们 带 
来 很 大 的 便利 ， 只 要 我 们 使 用 正则 表达 式 匹 配 “content” 就 可 以 获得 所 有 的 标题 和 链接 ， 
如 图 14-34 所 示 。 


T heh Ша Д" тербе прерада рад jagar: 


14-34 ”链接 中 的 “content” 单 词 


找到 了 链接 中 关键 的 匹配 词 ， 就 非常 方便 我 们 进行 提取 了 。 接 下 来 结合 前 面 几 节 所 
学 的 知识 ， 来 进行 网 页 的 爬 取 。 完 整 代 码 如 下 : 


第 14 章 从 数据 获取 到 活 题 提取 从 “研究 员 ” 到 | “段子 手 ” 


# 导 入 requests 库 
import requests 


# 导 入 CSV 库 便于 我 们 把 仆 取 的 内 容 保 存 为 csv 文 件 


Import CSV 
# 导 入 BeautifulSoup 
from bs4 import BeautifulSoup 


# 导 入 正则 表达 式 re 库 


import re 


# 定 义 肥 虫 的 User Agent 

user agent = "Мог2111а/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36\ 
(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Едае/15.15063" 
headers = | "Озег-Адепі" : изег Agent} 


# 使 用 requests 发 送 请 求 

policies = requests.get ('http://www.gov.cn/zhengce/zuixin.htm', 
headers = headers) 

# 指 定编 码 为 "utf-8" 


policies.encoding = 'utf-8' 


# 创 建 BeatifulSoup 对 象 
р = BeautifulSoup (ро1ісіез.іехі, '1хт1') 


# 用 正则 表达 式 匹 配 所 有 包含 "content" 单 词 的 链接 


contents = p.find а11 (пгеЕ = re.compile ('content')) 


# 定 义 一 个 空 列表 


rows = [] 


# 设 计 一 个 for 循 环 ， 将 每 个 数据 中 的 链接 和 文本 进行 提取 


for content іп contents: 


href = content.get('href') 
row = (' 国 务 院 ', content. string, һге#) 
# 将 提取 出 的 内 容 添 加 到 前 面 定 义 的 空 列 表 中 


гомз .аррепа (гом) 


# 定 义 CSV 的 文件 头 
header = [' 发 文部 门 ',' 标 题 ',' 链 接 '] 


# 建 立 一 个 名 叫 policies .csv 的 文件 ， 以 写 入 模式 打开 ， 记 得 设置 编码 为 gb18030 否 则 会 乱码 
with open ('а: /ро1ісіез.сзу!', ! и" ,„епсойтпа-"9Ь518030") аз Е: 

Е сзу = сзу.иг1Сег (+) 

# 写 入 文件 头 

Е csv.writerow (header) 

# 写 入 列表 


Е csv.writerows (rows) 
print ('\n\n\n 最 新 信息 获取 完成 \n 结 果 保 存在 D 盘 policies .csv 文 件 \n\n\n') 


上 面 这 段 代 码 运行 结束 后 ，Jupyter Notebook 会 提示 信息 如 图 14-35 所 示 。 
现在 我 们 打开 文件 保存 的 目录 ， 本 例 中 我 们 保存 在 D 盘 根 目 录 下 ， 如 图 14-36 所 示 。 
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14-35 Jupyter Notebook 提示 代码 运行 完成 14-36 ”保存 好 的 csv 文件 


下 面 打 开 这 个 csv 文件 来 检查 一 下 ， 双 击 图 标 ， 我 们 会 看 到 Excel 打开 这 个 文件 ， 如 
14-37 所 示 。 
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[EL Е E Е 一 
14-37 ”保存 好 的 csv 文件 
【 结果 分 析 】 图 14-37 中 显示 的 就 是 我 们 和 仆 取 好 的 最 新 政策 标题 和 相关 链接 ， 这 样 
就 可 以 使 用 这 个 方法 ， 快 速 获得 中 央 政 府 的 最 新 文件 ， 时 刻 关 注 政 策 的 变化 。 看 到 感 兴 
趣 的 政策 即 可 访问 相对 应 的 链接 来 阅读 政策 的 全 文 。 同 样 地 ， 我 们 可 以 使 用 这 个 方法 去 
疏 取 其 他 相关 部 门 的 最 新 政策 ， 保 持 上 自己 对 宏观 形势 能 够 及 时 掌握 ， 并 调整 相应 的 商业 
策略 。 


14.3 ”对 文本 数据 进行 话题 提取 


在 前 面 两 个 小 节 中 ， 我 们 一 起 学 习 了 如 何 使 用 Python 的 Requests РЕЖ BeautifulSoup 
库 实现 一 个 简单 的 爬虫 程序 ， 把 网 页 上 的 内 容 讨 取 下 来 并 保存 为 本 地 文件 。 而 如 果 程 序 
疏 取 的 文本 特别 多 的 时 候 ， 即 使 保存 在 本 地 ， 也 要 花 很 长 时 间 去 阅读 。 那 么 如 果 我 们 希 
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望 快 速 了 解 一 大 段 文字 〈 如 数 万 字 ) 的 核心 内 容 ， 应 该 怎么 做 呢 ?” 接 下 来 我 们 就 来 学 习 
如 何 使 用 “潜在 狄 利克 雷 分 布 ” (Latent Dirichlet Allocation) 来 对 文本 进行 话题 提取 。 


14.31 寻找 目标 网 站 并 分 析 结 构 


前 和 面 我 们 一 直 在 谈 工 作 ， 这 一 小 节 我 们 来 轻松 一 下 ， 找 点 搞笑 的 段子 来 看 看 ， 现 在 
我 们 在 百度 里 搜索 “段子 ”这 个 关键 词 ， 看 能 得 到 什么 结果 ， 如 图 14-38 所 示 。 


ват s ат | 
ва + - -m 
ща ас са Po го иж ец рак ас. чад 


14-38 ”在 百度 中 搜索 关键 词 “ 段 子 ” 


从 百度 返回 的 结果 来 看 , 排名 第 一 的 是 一 个 称 为 “ 百 思 不 得 姐 ” 的 网 站 , 好 像 很 有 趣 ， 
我 们 点 开 链 接 来 看 一 看 都 有 什么 内 容 ， 如 图 14-39 Рог. 
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14-39 “ 百 思 不 得 姐 ” 的 段子 栏目 


从 图 14-39 中 可 以 看 到 ,“ 百 思 不 得 姐 ” 的 内 容 包 括 视频 、 图 片 、 段 子 (文学 )、 声 音 ， 
因为 我 们 本 节 主 要 使 用 潜在 狄 利克 雷 分 布 来 练习 话题 提取 , 所 以 选择 了 “段子 ”这 个 栏目 。 

单 击 “ 上 段子”， 我 们 会 看 到 地 址 栏 中 显示 的 是 “www.budejie.com/text/”， 这 说 明文 
字 的 段子 页 面 是 以 tet 为 后 级 的 ， 继 续 分 析 这 个 页 面 ， 我 们 会 发 现 每 个 页 面包 含 20 个 文 
字段 子 ， 单 击 下 一 页 ， 我 们 会 发 现 地 址 栏 的 内 容 变 成 了 “www.budejie.com/text/2”， 如 
14-40 所 示 。 
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14-40 ”第 二 页 的 地 址 


由 此 可 以 推断 ， 该 网 站 是 在 网 址 最 后 加 上 数字 来 区 分 页 面 ， 这 样 就 好 办 了 ， 我 们 可 
以 使 用 for 循 环 来 息 取 所 有 页 面 的 信息 。 需要 注意 的 是 , 这 个 网 站 只 显示 50 页 最 新 的 段子 ， 
翻 到 第 51 页 的 时 候 ， 会 提示 找 不 到 页 面 ， 如 图 14-41 所 示 。 
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14-41 Ж51 页 提示 找 不 到 页 面 
这 样 的 话 ， 我 们 就 把 目标 页 面 锁定 在 1 一 50， 下 面 我 们 来 检查 一 下 页 面 的 结构 ， 在 
网 页 上 单 击 鼠标 右键 ， 选 择 “ 检 查 ” 选 项 ， 出 现 如 图 14-42 所 示 的 控制 台 。 
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14-42 ”检查 “ 百 思 不 得 姐 ” 的 网 页 元 素 
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【 结果 分 析 】 从 图 14-42 中 可 以 看 到 ， 段 子 的 正文 保存 在 一 个 名 为 <div class= "ј-г- 
list-c-desc"> 的 标签 当中 。 我 们 现在 知道 了 网 站 的 结构 ， 也 找到 了 内 容 所 在 的 位 置 ， 下 面 
我 们 可 以 写 代 码 来 进行 爬 取 了 。 


14.3.2 ”编写 爬虫 进行 内 容 疏 取 


鉴于 我 们 之 前 已 经 详细 介绍 了 礁 虫 的 原理 与 实现 ， 这 一 小 节 中 ， 我 们 直接 给 出 完整 


的 代码 供 大 家 参考 ， 新 建 一 个 Jupyter Notebook 的 记事 本 ， 输 入 代码 如 下 : 
# 导 入 request 库 


import requests 
# 导 入 BeautifulSoup 
from bs4 import BeautifulSoup 
# 导 入 正则 表达 式 
import re 
# 导 入 时 间 库 
import time 
#Е ХЮ + неадегз 
user agent = 'Мо2і11а/5.0 (Windows МТ 10.0; #1п64; x64) AppleWebKit/537.36\ 
(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Еаде/15.15063' 
пеадегз = | "Озег-Адепі':изег agent} 
от 
all jökes = 
# 设 置 for 循 环 ， 让 大 虫 从 第 1 页 民 到 第 50 页 
Гог і іп гапде (1,51): 
content = requests.get ('http://www.budejie.com/text/{}'.format (1), headers 


= headers) 
# 替 换 掉 网 页 中 的 <br> 和 <br/> 等 无 用 标签 
replaced = сопіёепі.іёехі.гер1асе ('<Ьг>','').гер1іасе('<ЫЬг />",""). 


replace('<br/>","") 
# 使 用 BeautifulSoup 提 取 段 子 的 正文 
soup = BeautifulSoup(replaced, 'lxml') 
jokes = soup.fnd а11 ("91у",с1азз = ")-г-1135-с-дезс") 
for joke in jokes: 
text = joke.a.string 
# 将 段子 正文 添加 到 列表 中 
all jokes.append (text) 
##ТЕПІЕ ЛЕР АЈА H 
print (' EERS} R'.format (1)) 
#798 5ЛЕ ДУ — д, ЖАК), 5 mAAR 


time.sleep (2) 


171, ВИ726 1ЛЕ нат, WK 14-43 所 示 。 


14-43 ЛЕЖА ГЕЈ 


大 约 2min ВИЕ), ЛЕВ п зе РУ ФАЧЛЕЯХ СЕ, В РКИ EEEE Ж 
保存 在 本 地 的 txt 文档 中 ， 输 入 代码 如 下 : 


运行 代码 之 后 ， 你 会 发 现在 D 盘 多 了 一 个 名 叫 jokes.txt 的 文件 ， 打 开 这 个 文件 ， 我 
们 看 到 段子 已 经 完全 保存 下 来 了 ， 如 图 14-44 所 示 。 


14-44 保存 在 本 地 的 段子 文本 


【 结果 分 析 】 前 面 我 们 说 过 ，“ 百 思 不 得 姐 ” 的 段子 页 面 每 页 显示 20 条 段子 ， 我 们 
ЛЕН у 50 页 ， 也 就 是 1000 条 段子 ， 一 时 半 会 儿 的 还 真 看 不 完 。 所 以 接 下 来 ， 我 们 就 试 
看 用 潜在 狄 利克 雷 分 布 来 进行 文本 的 话题 提取 。 
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14.3.3 ”使 用 淤 在 狄 利 区 和 雷 分 布 进行 话题 提取 


潜在 狄 利 元 雷 分 布 〈(Latent Dirichlet Allocation, LDA) 是 基于 不 同 的 词语 共同 出 现 
的 频率 来 进行 分 组 的 模型 , 比如 在 某 个 文档 中 ,“ 妹 子 ” 和 “ 吃 货 ” 这 两 个 词 经 常 同 时 出 现 ， 
那么 LDA 便 会 将 这 两 个 词 归 入 同一 个 话题 (Topic〉 当 中 。 对 于 LDA 模型 来 说 ， 文 本 必 
须 是 一 些 由 话题 组 成 的 集合 ， 但 需要 注意 的 是 ， 对 于 机 器 来 说 ，“ 话 题 ” 这 个 词 的 含义 
和 我 们 日 常 所 理解 的 是 完全 不 同 的 概念 ， 机 器 所 理解 的 “话题 ”， 并 非 语义 学 上 所 指 的 
话题 ， 而 只 是 通过 对 文本 进行 特征 提取 后 所 进行 的 聚 类 〈clustering) 。 下 面 我 们 就 使 用 
潜在 狄 利克 雷 分 布 对 有 息 取 的 段子 进行 话题 提取 ， 在 不 同 的 话题 中 ， 哪 些 词 共同 出 现 的 频 
率 最 高 。 

首先 ， 我 们 要 载 入 之 前 保存 的 txt 文件 ， 并 且 把 文本 数据 提取 出 来 ， 输 入 代码 如 下 : 

AE а б 


file = open ('d:/jokes.txt','r',encoding='utf-8') 
# 读 取 文 本 的 所 有 行 


lines=file.readlines () 
# 提 取出 文本 中 的 字符 串 数据 


line = str(lines) 


接 下 来 ， 我 们 就 要 用 到 13 章 学 到 的 结巴 分 词 工具 ， 对 段子 的 文本 进行 分 词 处 理 ， 输 
入 代码 如 下 : 
аа ДАЙ 


import jieb 
# 使 用 结巴 分 词 对 文本 进行 分 词 处 理 
line = jieba.cut (line) 
A 
гот .301п (11пе) 
HRES 另 二 个 txt 文件 
with ореп ('а: /сиёјокез.іхі', wW) аз Е: 
Ғ.мгіібе (х) 


运行 代码 之 后 ， 你 会 发 现 D 盘 多 了 一 个 名 为 сшјокеѕ.іхі 的 文件 ， 打 开 文 件 ， 如 
14-45 所 示 。 
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图 14-45 经 过 分 词 处 理 的 文本 文件 


2 с: T. а ма 


С 263 2 


接 下 来 ， 我 们 就 要 用 这 个 进行 过 分 词 处 理 的 文件 来 进行 话题 提取 的 工作 了 ， 首 先 
需要 将 文本 数据 转化 为 问 量 ， 这 就 用 到 了 第 13 章 我 们 学 过 的 CountVectorizer 或 者 是 
Tfidf Vectorizer， 这 里 我 们 选择 使 用 Tfidf Vectorizer， 然 后 使 用 LDA 模型 进行 话题 提取 ， 
输入 代码 如 下 : 


# 导 入 TfidfVectorizer 
from sklearn.feature extraction.text import TfidfVectorizer 
# 导 入 LDA 模 型 
from sklearn.decomposition import LatentDirichletAllocation 
# 此 处 定义 一 个 函数 ， 用 来 打印 提取 后 的 话题 和 高 频 词 
def print topics (model, feature names, п top words): 
for topic_idx, topic in enumerate (model .сотропепіёз ): 
message = 'topic #%d:' 5 topic idx 
пеззаде += " '.јоіп (| Ееабиге пашез [і] 
for і іп іоріс.агдзогі () |:-п Cop words - 1:-111) 
print (message) 
Printi) 


# 载 入 分 词 处 理 过 的 文本 文件 

Е = open ('d:/cutjokes.txt','r') 

# 定 义 每 个 话题 提取 20 个 高 频 词 

п top words = 20 

#Tfidf 最 大 特征 数 为 1000 

tf = TfidfVectorizer (max features=1000) 
# 将 转化 为 向 量 的 文本 数据 作为 训练 数据 

х train = tf.fit transform (E) 

# 指 定 LDA 模 型 提取 10 个 话题 

lda = LatentDirichletAllocation(n components=10) 
lda.fit (х train) 

# 将 结果 进行 打印 


print topics(lda, tf.get feature names(), п top words) 


= 从 -一 

运行 代码 ， 会 得 到 如 图 14-46 所 示 的 结果 。 
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【 结果 分 析 】 从 14-46 中 可 以 看 到 ，LDA 模型 按照 我 们 的 指示 ， 从 前 面 收集 的 段子 
中 提取 了 10 个 话题 ， 并 且 把 每 个 话题 中 共同 出 现 频率 最 高 的 词语 给 我 们 提取 了 出 来 。 例 
如 ,在 第 一 个 话题 ， 也 就 是 topic#0 中 ,共同 出 现 频率 最 高 的 词 包括 “平淡 ”“ 和 东北”“ 安 
全 感 ” 等 共 20 个 ; 而 topic#1 中 ， 共 同 出 现 频率 最 高 的 词 包括 “然后 ”“ 息 不 住 ” “出 
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来 ”等 。 当 然 ， 因 为 素材 的 原因 ， 我 们 并 不 能 真 的 通过 这 些 词汇 理解 其 所 属 的 话题 。 但 
如 果 是 其 他 类 型 的 文本 数据 ， 如 新 闻 类 ， 如 果 茶 个 话题 多 次 出 现 “ 进 球 ”“ 得 分 ”“ 后 
卫 ” 等 词语 ， 那 么 我 们 可 以 认为 这 是 “体育 类 ”新 闻 ; WREE JI” HME” “A” 
等 词汇 出 现 频率 较 高 ， 那 么 我 们 可 以 认为 是 “汽车 类 ”新 闻 。 以 此 可 以 对 收集 到 的 文本 
数据 进行 快速 聚 类 分 析 ， 而 无 须 用 肉眼 逐一 阅读 才能 进行 分 类 。 


14.4 ОМА 


在 前 面 的 章节 中 ， 我 们 主要 都 是 使 用 别人 整理 好 的 数据 集 来 进行 机 器 学 习 算 法 模型 
训练 ， 但 是 在 实际 的 情况 中 ， 我 们 很 难 找到 非常 合适 的 数据 集 。 针 对 这 个 问题 ， 本 章 简 
单 介绍 了 使 用 Python 进行 数据 爬 取 的 方法 ， 以 及 使 用 潜在 狄 利 殉 雷 分 布 对 文本 数据 进行 
话题 提取 的 方法 。 当 然 , 本 章 涉及 的 内 容 都 比较 简单 , 如 果 大 家 希望 进行 更 加 复杂 的 爬 取 ， 
推荐 各 位 了 解 一 下 另外 一 个 Python 库 ， 称 为 Scrapy， 这 也 是 目前 最 常用 的 用 于 开发 怜 虫 
的 工具 之 一 。 

此 外 ， 话 题 提取 也 是 目 然 语言 处 理 中 的 一 小 部 分 ， 如 果 大 家 对 这 方面 感 兴趣 ， 可 以 
研究 一 下 目前 非常 流行 的 研究 方 辐 一 一 使 用 循环 神经 网 络 (RNNs) 来 进行 文本 的 处 理 。 
限于 篇 幅 ， 这 里 我 们 就 不 展开 讨论 了 。 


#1509 人 才 需 求 现状 与 未 来 学 习 方 向 一 一 
你 是 不 是 下 一 个 “大 咎 ” 


各 位 读者 朋友 ， 现 在 已 经 是 本 书 的 最 后 一 章 了 。 非 常 感谢 你 一 路 坚持 读 到 最 后 ， 和 
我 们 一 起 完成 了 一 次 机 器 学 习 的 入 门 旅程 。 另 外 ， 如 果 你 已 经 开始 对 这 个 非常 有 前 景 的 
领域 产生 了 浓厚 的 兴趣 ， 我 们 也 要 衷心 地 祝贺 你 ， 因 为 你 已 经 把 一 只 脚 踏 进 了 这 场 全 新 
的 革命 之 中 ! 下 面 还 有 一 点 对 于 未 来 的 建议 ， 布 望 能 够 对 读者 朋友 有 些 帮助 。 

本 章 主要 涉及 的 知识 点 有 : 

э 人 工 智 能 领域 的 人 才 需 求 现状 

э 未 来 的 学 习 方 向 和 技能 磨炼 


深入 浅 出 Python 机 器 学 习 


15.1 人 才 需 求 现状 


在 时 下 的 互联 网 轿子 里 ， 有 一 句 话 十 分 流行 : “得 人 工 智 能 者 得 天 下 。” 这 人 句 话 也 
在 一 定 程度 上 反映 出 目前 该 领域 人 才 的 黎 缺 。 而 早 在 2016 年 ， 工 信 部 教育 考试 中 心 副 主 
任 周 明 束 曾经 癌 媒 体 透 露 过 ， 中 国 的 人 工 智 能 人 才 缺 口 超过 500 ПЛ. ШЛАН 
然 结果 ， 是 各 大 企业 不 遗 余力 地 用 高 薪 挖 人。 本 将 结合 一 些 数 据 癌 大 家 介绍 人 工 智能 
领域 的 人 才 需 求 和 薪资 分 布 情况 。 


15.1.1 ”全球 AI 从 业者 达 190 万 ， 人 才 需 求 3 年 翻 8 倍 


2017 年 7 月 ， 全 球 最 大 的 职场 社交 平台 Linkedin (MR) 发 布 了 业内 首 份 《全 球 Al 
领域 人 才 报 告 》。 这 份 报告 基于 领 英 全 球 5 亿 高 端 人 才 大 数据 ， 对 全 球 AI 领域 核心 技术 
人 才 的 现状 、 流 动 趋势 和 供需 情况 做 了 一 系列 深入 分 析 , 相信 可 以 为 大 家 提供 一 定 的 参考 。 

报告 显示 ， 截 至 2017 年 第 一 季度 ， 基 于 领 类 平台 的 全 球 AI 领域 技术 人 才 数 量 超过 
190 万 ， 其 中 美国 相关 人 才 总 数 超过 85 万 ， 高 居 榜 首 ， 而 中 国 的 相关 人 才 总 数 也 超过 5 
万 人 ， 位 居 全 球 第 七 。 从 全 球 范围 来 看 ， 与 AI 作为 “投资 新 风口 ”而 进入 大 众 视野 的 认 
知 相 反 ， 这 其 实 是 一 块 拥 有 “高 度 文明 的 新 大 陆 ” 一 一 AI 人 才 普 裔 资深 具有 10 年 以 
上 工作 经 验 的 人 才 占 比 高 达 65.4%， 而 美国 的 10 年 以 上 AI 从 业 人 员 比 例 更 达到 全 球 最 
高 的 71.5% ! 几 十 年 的 深厚 技术 积淀 和 AI 人 才 的 高 门槛 ， 也 为 今天 AI 在 全 球 掀起 一 波 
商业 化 浪潮 葛 定 了 基础 。 

伴随 风口 而 来 的 ， 是 全 球 AI 领域 人 才 和 需求 激增 。 过 去 3 年 间 ， 通 过 领 喘 平台 发 布 的 
AI 职位 数量 从 2014 年 的 5 万 应 升 至 2016 年 的 44 万 ， 增 长 近 8 倍 。 有 具体 到 细 分 领域 ， 
当前 对 AI 基础 层 人 才 的 需求 最 为 旺盛 ， 尤 其 是 算法 、 机 器 学 习 、GPU、 智 能 必 片 等 方面 ， 
相对 于 技术 层 与 应 用 层 呈 现 出 更 为 显著 的 人 才 缺 口 ， 如 图 15-1 所 示 。 


全 球 人 工 智能 细 分 领域 人 才 需 求 量 排名 


算法 、 机 器 学 习 等 智能 /精准 营销 
GPU、 智 能 忆 片 等 语音 识别 
推荐 系统 


RIR 


Ма А 
图 像 识别 /计算 机 视觉 ЧЕ 
目 然 语 言 处 理 智能 交通 / 目 动 驾驶 


15-1 细 分 领域 的 人 才 需 求 量 排名 
数据 来 源 : Linkedin 全 球 人 才 大 数据 


第 15 章 人 才 需 求 现 状 与 未 来 学 习 方向 一 你 是 不 是 下 一 个 АЯ 


15.1.2 AI 人 才 需 求 集 中 于 一 线 城市 ， 七 成 从 业者 月 薪 过 万 


2017 年 12 月 ， 智 联 招聘 推出 《2017 人 工 智能 就 业 城市 供需 与 发 展 研究 报告 》， 数 
据 显 示 ，2017 年 ，AI 人 才 需 求 呈 现 爆发 式 的 增长 。 随 着 人 工 智 能 在 实践 上 的 不 断 突破 ， 
越 来 越 多 的 创业 型 公司 也 加 入 AI 相关 业务 的 创业 大 潮 中 ， 这 一 发 展 窗口 催生 了 大 量 的 人 
才 需 求 。 根 据 智联 全 站 大 数据 ，2017 年 第 三 季度 人 工 智 能 人 才 需 求 量 相 较 2016 年 第 一 
季度 增长 了 179%， 是 2016 年 第 一 季度 人 才 需 求 量 的 近 3 倍 。 

而 在 AI 行业 中 ， 企 业 在 招聘 时 给 出 的 薪酬 预算 中 ， 有 33.7% 集中 于 10 001 一 15 000 
元 /月 区 间 ; 27.7% 集中 于 8 001 ~ 10 000 元 /月 区 间 ; 26.7% 集中 于 15 001 ~ 25 000 
元 1/ 区间， 远 高 于 全 国平 均 水 平 。 这 也 表明 ， 高 薪 是 企业 面临 人 才 供给 压力 时 给 出 的 最 
为 直观 的 吸引 条 件 。AI 领域 薪资 分 布 如 图 15-2 所 示 。 
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AI 领域 的 持续 升温 ， 刺 激 大 量 优秀 技术 人 才 流 入 这 一 行业 ， 同 时 推动 国家 高 校 设立 
人 工 智 能 相关 专业 ， 这 些 为 人 才 补 给 提供 了 根本 保障 。 据 腾讯 研究 院 《2017 ERRATE 
能 人 才 和 白皮书 》 显 示 ，2018 年 人 才 供 给 有 望 较 2017 年 增长 1.2 倍 ， 上 行 趋势 预测 值 较 
2017 年 增加 1.7 1, 可 以 看 出 ， 人 才 供 给 在 高 速 增长 , 但 较 需 求 增长 速度 还 是 有 不 小 差距 ， 
这 将 继续 拉 大 人 才 需 求 缺 口 。 
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该 “白皮书 ”同时 指出 ， 与 人 才 和 需求 预测 相 比 ， 人 才 供 给 预测 不 确定 性 更 高 ， 一 是 
国家 对 AI 行业 重视 程度 提高 ， 有 望 加 速 高 校 设立 相关 专业 ， 并 通过 政策 吸引 大 批 海外 
AI 人 才 归 国 ; 二 是 行业 热度 提升 将 使 教育 培训 市 场 加 速 布局 AI КЕ, EATE ВЕЗЕ 
人 才 培 养 数量 翻 倍增 长 ， 这 些 因 素 有 可 能 会 使 未 来 AI 人 才 供 应 出 现 缓解 。 

综 上 所 述 ， 目 前 AI 领域 的 人 才 需 求情 况 十 分 火爆 ， 给 人 才 提 供 的 薪酬 也 非常 诱 人 。 
对 于 有 志 问 在 这 个 领域 发 展 的 朋友 来 说 ， 是 一 个 千载难逢 的 好 机 会 。 


15.2 未 来 学 习 方 回 


当然 ， 对 于 有 意愿 从 事 机 器 学 习 相 关 工 作 的 读者 朋友 来 说 ， 仅 仅 阅 读本 书 的 内 容 是 
远 远 不 够 的 ， 还 需要 进行 更 加 深入 的 学 习 和 研究 。 不 过 在 开始 下 一 步 之 前 ， 建 议 大 家 可 
以 先 初 步 选择 一 个 大 致 的 方 同 ， 然 后 在 这 个 方 同 上 深入 挖 据 。 目 前 比较 热门 的 方 同 包括 : 
大 数据 分 析 、 模 式 识别 、 目 然 语 言 处 理 ， 以 及 人 硬件 方面 的 人 工 智 能 芯片 和 传感器 技术 等 。 


15.21 用 于 大 数据 分 析 的 计算 引擎 


大 数据 分 析 ， 也 被 称 为 数据 挖掘 ， 是 时 下 非常 热门 的 领域 之 一 。 不 过 当 我 们 谈 到 “大 
数据 ”的 时 候 ， 数 据 的 量 级 就 要 远 远 高 于 本 书 中 用 来 进行 实验 的 数据 集 了 。 在 真实 世界 
的 应 用 《〈 如 电 商 、 文 付 、 社 交 媒 体 等 ) 当中 ， 其 服务 器 上 存储 的 数据 动 辑 上 百 GB， 甚 至 
是 TB 级 别 的 。 因 此 在 面 对 如 此 海量 的 数据 的 时 候 ， 我 们 的 计算 机 内 存 就 无 法 应 付 任务 
的 需求 ， 而 是 需要 一 些 额外 的 方法 来 进行 数据 处 理 和 分 析 。 例 如 “ 核 外 学 习 ”(out-of-core 
learning， 也 有 翻译 成 外 存 学 习 ) 和 “集群 式 并 行 计算 ”。 

“ 核 外 学 习 ” 是 指 ， 数 据 并 不 使 用 我 们 本 地 电脑 的 内 存 进行 存储 ， 但 是 模型 的 训练 
是 通过 本 地 СРО СЖ СРО) 来 完成 。 数 据 是 通过 外 部 便 盘 甚至 是 网 络 来 读 取 的 ， 计 算 
机 会 把 数据 分 成 几 个 部 分 进行 读 取 ， 再 用 本 地 内 存 进行 模型 的 训练 。 本 书 使 用 的 scikit- 
learn 中 ， 有 者 干 算法 可 以 文 持 “ 核 外 学 习 ”， 但 是 “ 核 外 学 习 ” 使 用 的 仍然 是 单个 计算 
机 的 计算 资源 ， 所 以 模型 的 训练 可 能 会 非常 耗 时 ， 这 也 是 该 方法 的 一 大 局 限 。 

而 “集群 式 并 行 计 算 ” 则 是 将 数据 分 布 至 多 个 计算 机 上 ， 这 些 计算 机 就 组 成 了 所 谓 
的 “集群 ”。 人 集群 中 的 每 台 计 算 机 分 别处 理 数 据 集 的 一 部 分 ， 这 样 一 来 模型 训练 的 速度 
就 会 提高 很 多 。 对 这 部 分 感 兴趣 的 读者 ， 可 以 深入 学 习 一 下 Spark 计算 引擎 。Spark 是 专 
为 大 规模 数据 处 理 而 设计 的 快速 通用 的 计算 引擎 ， 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 
то а КН MapReduce 的 算法 。Spark 支持 多 种 开发 语言 ， 除 了 Python 之 外 ，Spark 
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也 支持 包括 scala、java、R 在 内 的 多 种 语言 。 目 前 ，Spark 已 经 成 为 最 流行 的 分 布 式 计 算 
тас: 

另外 ， 在 数据 分 析 方 面 ， 除 了 Python 之 外 ， 还 有 一 种 应 用 非常 广泛 的 语言 ， 就 是 К. 
同 Python 一 样 ，R 也 是 完全 免费 的 开源 语言 。 它 的 语法 也 非常 通俗 易 懂 ， 即 使 新 手 也 可 
以 在 很 短 的 时 间 内 上 手 。 它 有 非常 丰富 的 统计 分 析 工 具 包 和 优秀 的 制图 功能 ， 对 大 数据 
分 析 感 兴趣 的 读者 可 以 尝试 使 用 一 下 。 


15.2.2 ”深度 学 习 开 源 框 染 


不 得 不 说 目前 在 机 器 学 习 、 人 工 智 能 领域 ， 最 炙手可热 的 概念 就 是 深度 学 习 了 。 不 
论 是 易 易 大 名 的 Alpha Go (UR ERFA Alpha Со Zero) ， 还 是 各 大 巨头 正在 布局 的 
无 人 驾驶 亦 或 是 时 下 政府 、 投资 界 都 在 追捧 的 医疗 人 工 智 能 ， 都 能 看 到 深度 学 习 的 身影 。 
在 本 书 中 我 们 初步 介绍 了 scikit-learn 内 置 的 MLP 多 层 感知 神经 网 络 算 法 ， 但 由 于 scikit- 
learn 并 不 文 持 使 用 СРО 加 速 ， 因 此 在 处 理 海量 数据 集 的 时 候 ， 尤 其 是 大 量 高 像素 的 图 
像 或 者 高 清 视 频 的 时 候 ，scikit-learn 会 完全 无 用 武之 地 。 因 此 ， 我 们 建议 对 计算 机 视觉 、 
图 像 识 别 、 深 度 学 习 等 方 回 感 兴趣 的 读者 朋友 ， 可 以 深入 了 解 一 下 几 个 著名 的 深度 学 习 
框架 ， 包 括 但 不 限于 Tensorflow, Caffe 和 Keras。 

Tensorflow 是 一 个 开源 的 深度 学 习 框 架 ， 是 Google Brain 的 第 二 代 深 度 学 习 系 统 。 原 
本 Tensorflow 是 用 于 Google 内 部 研发 使 用 的 ， 但 在 2015 年 11 H, Google 将 Tensorflow 
进行 了 开源 ， 供 广大 的 机 器 学 习 从 业 人 员 和 爱好 者 使 用 。Tensorflow 可 以 部 蜀 在 多 个 
СРО 或 GPU 组 成 的 服务 器 集群 当中 ， 同 时 也 可 以 使 用 API 应 用 在 移动 设备 中 。 鉴 于 其 
系 出 名 门 的 血统 ，Tensorflow 可 以 说 是 目前 深度 学 习 领 域 的 明星 框架 了 。 

Caffe 是 一 个 清晰 而 高 效 的 深度 学 习 框 架 ， 其 作者 是 毕业 于 UC Berkeley 的 博士 贾 扬 
Wo Caffe 作为 快速 开发 和 工程 应 用 是 非常 适合 的 。Caffe 官方 提供 了 大 量 实例 ， 代 码 易 
懂 好 理解 ， 高效 、 实 用 。 上 和 手 简 单 ,使 用 方便 ， 比 较 成 熟 和 完善 ， 实 现 基础 算法 方便 快捷 ， 
虽然 开发 新 算法 不 是 特别 灵活 ， 但 是 非常 适合 工业 快速 应 用 实现 。 

而 Keras 和 Tensorflow 与 Caffe 不 同 ， 根 据 官方 的 说 法 ，Keras 其 实 是 一 个 高 层 神经 
网 络 API。 它 需要 使 用 TensorFlow， 或 是 Theano〔 男 一 个 很 有 名 的 深度 学 习 框 架 ， 但 可 
惜 的 是 它 的 开发 者 即将 停止 Thean 的 进一步 开发 ) ， 叉 或 是 CNTK 微 软 的 深度 学 习 开 
源 框架 ) 作为 它 的 后 端 (Backend) 。 这 是 因为 Keras 并 不 处 理 张 量 乘法 、 卷 积 等 底层 操作 ， 
而 是 使 用 其 他 的 张 量 操作 库 ， 也 就 是 Tensorlow、CNTK 或 是 Theano。 但 Keras ЊН Р 
更 加 友好 ， 使 得 其 上 手 要 比 Tensorflow 快 得 多 ， 而 且 提 供 了 优秀 的 易 扩 展 性 和 完善 的 中 
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文 文档 。 


15.23 ”使 用 概率 模型 进行 推理 


在 本 书 中 ， 我 们 介绍 的 机 器 学 习 模型 基本 都 是 使 用 了 茶 种 单一 的 算法 ， 并 且 已 经 由 
开发 者 调试 好 。 但 在 真实 世界 中 ， 很 多 问题 都 不 是 能 够 简单 地 使 用 茶 一 种 单独 的 方法 就 
能 找到 解决 方案 的 。 所 以 我 们 要 用 到 一 些 特殊 的 方法 ， 如 概率 论 。 例 如 ， 我 们 希望 开发 
一 个 移动 App 让 和 它 可 以 通过 你 的 位 置 找到 离 你 最 近 的 共享 单车 ， 当 然 我 们 可 以 使 用 手机 
内 置 的 GPS 模块 来 获得 实时 的 位 置 ， 还 有 加 速度 传感器 和 指南 针 。 但 是 试想 一 下 ， 假 如 
恰好 在 某 个 时 间 茶 个 地 点 GPS 信 号 丢失 (这 在 真实 世界 中 非常 常见 ), 又 或 是 受到 了 干扰 ， 
说 用 户 此 时 此 刻 正 在 颐和园 的 湖 里 潜水 ， 这 个 时 候 我 们 就 无 法 再 依赖 上 述 这 些 设 备 对 用 
户 的 位 置 进行 准确 的 判断 。 这 时 我 们 束 需 要 用 概率 模型 进行 推理 ， 对 设备 反馈 的 各 种 位 
置信 息 进 行 概率 的 计算 ， 并 从 中 选 出 用 户 最 可 能 在 的 位 置 。 

要 实现 上 述 的 模型 ， 我 们 可 以 使 用 一 些 现成 的 工具 ， 例 如 ， 可 以 在 Python 中 直接 使 
用 的 PyYMC， 和 支持 多 种 语言 的 Stan。 其 中 PyMC 是 一 个 实现 贝 叶 斯 统计 模型 和 马尔 科 
夫 链 蒙特 卡 洛 采 样 工 具 拟 合算 法 的 库 ， 它 的 灵活 性 和 可 扩展 性 都 非常 优秀 ， 能 够 适用 于 
解决 各 种 问题 。 而 Stan 是 一 个 非常 尖端 的 用 于 统计 建 模 和 高 效 统计 计算 的 平台 ， 现 在 已 
经 有 众多 用 户 在 社交 、 生 物 、 物 理 、 工 程 学 和 商业 场景 中 使 用 它 来 进行 数据 分 析 和 预测 。 
当然 ， 无 论 是 使 用 PyMC 还 是 Stan， 都 要 求 用 户 对 于 概率 统计 有 一 定 的 了 解 。 


15.3 技能 磨炼 与 实际 应 用 


如 我 们 之 前 所 说 , 学 习 一 项 技能 最 好 的 办 法 就 是 使 用 它 ， 而 且 要 一 直 不 停 地 使 用 它 。 
接 下 来 ， 我 们 加 读者 朋友 们 介绍 一 些 技能 磨炼 的 方法 。 


15.3.1 Kaggle 算 法 大 赛 平台 和 OpenML 平 台 


这 一 小 节 主 要 针对 的 目标 人 和 群 是 尚未 工作 的 在 校生 ， 或 是 之 前 没有 这 方面 工作 经 验 
但 是 又 想 朝 这 个 方 回 转型 的 读者 朋友 。 这 类 人 和 群 由 于 接触 不 到 大 量 的 数据 集 ， 所 以 想 要 
用 真实 世界 的 数据 来 训练 会 有 一 点 困难 。 不 过 没有 关系 ， 我 们 有 Kaggle 算法 大 赛 平台 和 
OpenML ё. 

Kaggle 是 一 个 为 开发 商 和 数据 科学 家 提供 举办 机 器 学 习 苋 赛 、 托 管 数 据 库 、 编 写 及 
分 享 代码 的 平台 。 据 称 Kaggle 平 台 已 经 吸引 了 80 万 数据 科学 家 的 关注 。 就 在 2017 年 3 Н, 
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Google 官方 正式 宣布 收购 Kaggle 平台 ，3 引 起 了 业界 的 普 裔 关注 。Kaggle 平台 的 网 址 是 
www.kaggle.com， 感 兴趣 的 读者 朋友 可 以 访问 这 个 网 址 对 Kaggle 平台 进行 深入 地 了 解 。 

而 OpenML 则 是 男 外 一 个 著名 的 机 器 学 习 平 台 ， 网 址 是 www.openml.org， 在 该 平台 
上 有 超过 2 万 个 数据 集 和 5 万 多 个 可 以 供 你 练 手 的 机 器 学 习 任 务 。 不 过 ， 用 这 种 大 赛 平 
台 练 手 也 有 一 定 的 局 限 性 ， 因 为 这 些 平台 提供 的 数据 集 往往 都 是 经 过 预 处 理 和 优化 的 ， 
和 真实 世界 的 数据 集 还 是 会 有 一 定 的 差距 ， 所 以 即使 在 这 些 平台 上 获得 了 不 错 的 成 绩 。 
也 不 要 瑟 记 ， 对 于 职业 发 展 来 说 ， 我 们 要 走 的 路 还 很 长 。 


15.3.2 ”在 工业 级 场景 中 的 应 用 


虽然 Python 和 scikit-learn 都 是 非常 容易 上 手 的 工具 ， 但 这 可 不 意味 着 它们 的 能 力 一 
般 。 实 际 上 在 很 多 国际 大 型 企业 当中 ，Python 和 scikit-learn 都 在 工业 级 的 场景 中 有 着 非 
常 普 遍 的 应 用 ， 因 为 它们 非常 易于 打造 产品 的 原型 ， 并 且 可 以 实现 快速 部 署 。 当 然 在 大 
型 企业 当中 ， 开 发 人 员 使 用 的 工具 往往 是 多 种 多 样 的 ， 他 们 不 会 仅仅 局 限于 某 一 种 开发 
语言 或 开发 工具 ， 例 如 在 数据 分 析 应 用 当中 ， 除 了 Python 之 外 ， 我 们 之 前 提 到 的 R 语言 
也 是 非常 流行 的 。 

而 对 于 那些 效率 要 求 非常 高 的 系统 来 说 ，Java 和 C++ 也 是 优先 的 选择 ， 同 时 Scala 
和 Со 语言 的 使 用 也 越 来 越 普 遍 。 所 以 最 常见 的 情况 是 ， 在 企业 的 产品 中 ， 会 混合 使 用 
上 述 集 中 开发 语言 。 不 过 读者 朋友 也 不 用 担心 , 开发 语言 不 是 问题 , 不 管 你 使 用 哪 种 语言 ， 
都 可 以 将 它 重 新 编译 成 其 他 的 语言 ， 所 以 大 可 放心 专攻 其 中 一 种 即 可 。 

另外 要 指出 一 点 ， 虽 然 我 们 在 本 书 中 ， 经 常 使 用 各 种 方法 来 对 模型 进行 评分 ， 并 且 
尽 可 能 地 提高 它们 的 准确 性 ， 但 在 工业 级 应 用 当中 ， 模 型 准确 率 提升 一 两 个 百分点 其 实 
带 来 的 影响 并 不 是 很 大 ， 反 和 而 我 们 要 更 加 关注 它 的 可 靠 性 、 运 行 时 间 还 有 系统 资源 的 占 
用 等 。 因 此 模型 一 定 要 简洁 高 效 ， 这 就 需要 我 们 在 建 模 的 过 程 中 对 于 数据 处 理 和 训练 过 程 
的 复杂 程度 了 然 于 胸 。 尽 量 在 模型 的 建立 过 程 中 兼顾 模型 的 准确 率 和 其 后 期 维护 的 成 本 。 

15.3.3 对 算法 模型 进行 AB 测 试 

在 前 面 几 乎 每 一 章 里 ， 我 们 都 会 用 到 score 方法 或 者 是 cross_val_score 来 对 模型 进 
行 评 分 ， 当 然 这 些 都 是 在 我 们 本 地 计算 机 上 进行 的 ， 这 种 方法 我 们 称 为 “离线 测试 ”或 
者 “离线 评估 ”。 不 过 在 当今 这 个 互联 网 鞍 勃 发 展 的 时 代 , 绝 大 多 数 应 用 都 是 面 问 用 户 的 ， 
也 就 是 说 ,这些 应 用 基本 上 都 是 在 线 的。 即便 我 们 模型 在 离线 测试 中 获得 了 不 错 的 分 数 ， 
也 可 能 在 部 署 之 后 出 现 一 些 意 想不到 的 问题 ， 而 这 些 问 题 非常 可 能 影响 到 用 户 的 体验 和 
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行为 。 为 了 防止 类 似 的 情况 发 生 ， 我 们 往往 会 使 用 “A/B 测试 法 ”来 进行 “在 线 测试 ”。 

РА “А/В 测试 法 ”， 就 是 从 用 户 和 群 中 随机 选择 一 小 部 分 ， 并 且 分 成 两 组 。 其 中 一 
组 我 们 对 他 们 提供 基于 算法 A 的 内 容 或 者 服务 ;而 另外 一 组 则 提供 基于 算法 В 的 内 容 或 
者 服务 。 接 下 来 我 们 对 两 组 算法 的 最 优 参数 所 对 应 的 效果 进行 比较 ， 比 如 哪 一 组 用 户 页 
献 的 营业 额 更 高 ， 或 者 用 户 秋 性 更 强 ， 然 后 选择 效果 更 好 的 算法 和 相对 的 最 优 参数 来 实 
现 最 终 的 产品 。 


15.4 ОМА 


到 这 里 本 书 的 内 容 就 要 告 一 段落 了 。 相 信 通 过 本 书 的 学 习 ， 读 者 朋友 们 对 于 机 器 学 
习 的 概念 和 和 常见 的 有 监督 学 习 和 无 监督 学 习 算 法 有 了 一 定 的 了 解 ， 并 且 可 以 自己 动手 解 
决 一 些 简单 的 问题 了 ， 也 对 未 来 的 方 曲 有 了 初步 的 认识 。 最 后 还 想 再 虽 唆 几 句 ， 请 各 位 
读者 朋友 耐心 看 完 。 

机 器 学 习 赋 予 了 我 们 非常 优秀 的 数据 处 理 能 力 , 以 及 针对 特定 问题 找到 答案 的 方法 。 
但 是 ， 在 真实 世界 的 数据 分 析 和 商业 决策 中 ， 使 用 算法 找到 答案 只 是 很 小 的 一 个 部 分 ， 
真正 困难 且 影 响 大 局 的 部 分 是 ， 找 到 “对 的 问题 ”， 或 者 说 我 们 使 用 机 器 学 习 技 术 所 要 
达成 的 目标 是 什么 。 就 好 像 我 们 在 最 开始 的 时 候 讲 的 那个 小 故事 ， 小 C 的 目标 很 明确 ， 
就 是 要 追 到 女神 ， 或 者 说 他 要 解决 的 问题 是 ， 如 何 能 够 和 女神 有 共同 语言 并 且 可 以 一 步 
步 拉 近 距 离 。 

当然 ， 如 果 你 目前 也 是 单身 ， 并 且 已 经 有 了 心仪 的 对 象 ， 不 妨 也 试 一 试 小 C 的 手段 。 
不 过 ， 或 许 你 还 有 一 个 更 小 的 目标 ， 比 如 先 挣 一 个 亿 ， 那 么 实现 这 个 目标 的 方法 可 能 就 
完全 不 一 样 了 。 你 可 能 需要 把 这 个 目标 分 解 成 若干 个 问题 ， 例 如 : 我 的 目标 客户 是 谁 ? 
这 个 市 场 有 多 大 ? 我 的 产品 或 服务 能 满足 他 们 的 什么 需求 ? 我 的 竞争 对 手 都 有 谁 ?” 我 该 
如 何 定价 ?等 等 。 

话说 回来 ， 即 便 我 们 找到 了 明确 的 目标 ， 也 提出 了 “正确 ”的 问题 ， 并 且 可 以 熟练 
地 使 用 常见 的 机 器 学 习 和 算法， 后面 仍然 有 很 多 工作 要 做 一 一 如 收集 合适 的 数据 (这 一 步 
常常 要 耗费 大 量 的 人 力 和 时 间 ) 、 对 数据 进行 清洗 ， 以 及 不 断 地 改进 模型 让 算法 更 加 高 
效 等 ， 而 这 些 工作 往往 比 建立 模型 本 身 需 要 更 多 的 精力 投入 。 

所 以 说 ， 未 来 真 的 是 “路 漫漫 其 修 远 今 ”， 我 们 也 会 和 广大 读者 朋友 一 起 共同 努力 
和 进步 。 最 后 祝 大 家 在 机 器 学 习 的 道路 上 一 帆 风 顺 ， 生 活 万 事 顺心 。 

感谢 大 家 的 阅读 ! 
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